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本 书 使 用 MPI 标准 介绍 了 数据 科学 中 的 高 性 能 计算 ， 帮 助 读 者 了 解 分 布 式 存 储 模 型 中 的 并 行 编 
程 的 知识 。 全 书 分 为 两 部 分 ， 第 一 部 分 (第 1 一 6 章 ) 基于 消息 传递 接口 介绍 高 性 能 计算 ， 内 容 包括 : 
阻塞 与 非 阻塞 的 点 对 点 通信 、 死 锁 、 全 局 通信 范 数 (广播 、 散 播 等 )、 协 同 计算 ( 归 约 ) 的 基本 概念 ; 
互联 网 络 的 拓扑 结构 ( 环 、 环 面 和 超 立 方 体 ) 以 及 相应 的 全 局 通信 程序 ; 基于 分 布 式 内 存 的 并 行 排序 
及 其 实现 ， 涵 盖 相 关 并 行 线 性 代数 知识 ; MapReduce 模型 。 第 二 部 分 (38 7—11 章 ) 介绍 计算 机 集 
群 中 的 高 性 能 数据 分 析 ， 内 容 包 括 : 数据 聚 类 技术 (平面 划分 聚 类 、 层 次 聚 类 ) ; 基于 k-NN 的 有 监 
督 分 类 ; 核心 集 以 及 相关 降 维 技术 ; 图 算法 (最 稠密 子 图 、 图 同 构 检 测 ) 。 每 章 章 末 附 有 各 种 难度 的 
钳 习 和 人 参考 文献 ， 可 供 读者 进行 自 测 和 深入 学 习 。 
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出 版 发 行 : 机 械 工业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 ”邮政 编码 ; 100037) 


责任 编辑 : 唐 晓 琳 责任 校对 : Be 虹 

E] W: 北京 瑞 德 印刷 有 限 公司 版 ”次 : 2018 年 7 月 第 1 版 第 1 次 印刷 
Jf 2k: 185mmx260mm 1/16 E] 35K: 14.5 

书 $: ISBN 978-7-111-60214-9 3E ft: 59.00 元 








JU AS, WARA, HR, BCR, ， 由 本 社 发 行 部 调换 
客服 热线 : (010) 88378991 88361066 投稿 热线 : (010) 88379604 
购书 热线 : (010) 68326294 88379649 68995259 读者 信箱 : hzjsj@hzbook.com 


版 权 所 有 “' 侵权 必 究 
封底 无 防伪 标 均 为 盗版 
本 书法 律 顾问 : 北京 大 成 律师 事务 所 ” 韩 光 / SRE 


数据 科学 (Data Science，DS) 的 目的 是 研究 数据 本 身 ， 研 究 数 据 的 各 种 类 
型 、 状 态 、 属 性 及 变化 形式 和 变化 规律 。 随 着 当前 数据 量 的 指数 级 增长 ， 数 据 
科学 的 战略 意义 已 经 不 在 于 掌握 “大 数据 "(big data) 信 息 本 身 ， 而 在 于 对 这 些 含 
有 意义 的 数据 进行 快速 、 准 确 、 高 效 地 分 析 处 理 。 

高 性 能 计算 (High Performance Computing, HPC) 是 辅助 “大 数据 ” 快 速 分 析 
与 处 理 的 利器 之 一 。 通 过 高 性 能 网 络 互 连 的 很 多 处 理 器 或 者 某 一 集群 中 的 大 量 
计算 机 ， 对 “大 数据 ?进行 并 行 聚 类 、 分 类 以 及 降 维 等 操作 ， 从 而 能 够 更 加 快速 
地 获取 数据 中 蕴含 的 规律 和 有 价值 的 信息 。 

本 书 的 主要 目的 是 将 数据 科学 与 高 性 能 计算 两 大 研究 分 支 交叉 融合 起 来 ， 
让 高 性 能 计算 更 好 地 为 数据 科学 服务 ， 让 数据 科学 对 高 性 能 计算 发 展 提出 新 的 
需求 。 因 此 ， 本 书 分 为 两 个 部 分 : 第 一 部 分 ， 介 绍 了 高 性 能 计算 的 基本 概念 及 
基于 标准 消息 传递 接口 (Message Passing Interface, MPD 的 并 行 编程 方法 ; 第 二 
部 分 ， 给 出 了 高 性 能 计算 在 数据 科学 中 的 应 用 ， 尤 其 重点 阐述 了 如 何 利 用 MPI 
来 并 行 化 数据 科学 中 的 算法 。 
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对 ， 其 中 第 1 章 、 第 4 章 、 第 5 章 、 第 11 章 和 附录 由 哈尔滨 工业 大 学 鲁 刚 钊 翻 
译 ， 第 2 章 由 哈尔滨 工业 大 学 王 德 胜 翻 译 ， 第 3 章 由 哈尔滨 工业 大 学 孙 博 文 翻 
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欢迎 来 到 高 性 能 计算 的 世界 ! 欢迎 来 到 高 性 能 数据 科学 的 世界 ! 

在 本 书 中 ， 我 们 将 介绍 面向 数据 科学 (Data Science，DS) 的 高 性 能 计算 
(High Performance Computing，HPC) 。 因 此 ， 本 书 主 要 分 为 两 个 部 分 : 第 一 部 
分 (前 6 X0 Mm HPC 的 基本 原理 ; 第 二 部 分 (后 5 章 ) 介 绍 了 数据 科学 的 基本 知 
识 ， 并 展示 了 如 何 编写 面向 基本 串 行 算法 的 分 布 式 程序 ， 以 应 对 大 规模 数据 集 。 
当前 ， 许 多 大 规模 数据 集 都 是 公开 的 ， 这 些 数据 集中 蕴含 了 丰富 的 信息 ， 但 是 
这 些 信息 需要 通过 精心 设计 才能 被 提取 出 来 。 

我 们 主要 区 分 两 种 并 行 算法 的 设计 方法 : 在 单个 共享 内 存 多 核 机 器 上 使 用 
多 线程 并 行 化 算法 ; 在 分 布 式 内 存 集 群 系统 上 并 行 化 算法 。 

一 方面 ， 当 在 共享 内 存 架构 (如 智能 手机 、 平 板 电 脑 ， 以 及 智能 手表 和 其 他 
物 联网 设备 ) 上 设计 并 行 化 算法 时 ， 所 有 的 硬件 计算 单元 ( 核 ) 位 于 同一 芯片 上 ， 
我 们 可 以 使 用 多 线程 来 轻松 地 对 视频 解码 、 泻 染 等 任务 进行 并 行 化 。 这 种 并 行 
E $n #2 JE th (fine-grained) ， 但 它 受 到 芯片 上 物理 核 数 的 限制 (2015 年 高 端 智能 
手机 通常 只 有 8 个 核 );。 另 一 方面 ， 集 群 系统 ( 即 分 布 式 内 存 架构 ) 可 以 根据 待 处 
理 的 数据 集 规模 来 实时 扩展 资源 。 集 群 的 构建 具有 很 大 的 灵活 性 ， 例如 可 以 选 
择 异 构 的 计算 机 节点 ， 然 后 确定 最 适合 这 些 节 点 的 互 连 拓 扑 结 构 。 这 种 并 行 是 
粗 粒度 的 (coarse-grained) ， 因 为 在 集群 中 发 生 节点 间 通 信之 前 ， 每 个 节点 可 以 
独立 地 进行 大 量 的 本 地 计算 。 

本 书 侧重 于 在 分 布 式 内 存 系 统 上 利用 标准 消息 传递 接口 (Message Passing In- 
terface，MPD 来 设计 并 行 算 法 。MPI 是 管理 集群 节点 之 间 通 信和 全 局 协同 计算 
的 实际 标准 。 目 前 存在 多 种 MPI 标准 的 供应 商 实 现 ， 它们 可 以 与 C、C 十 十 、 
Fortran, Python 等 多 种 编程 语言 绑 定 。 我 们 选择 面向 对 象 的 语言 C 十 十 来 实现 
数据 科学 中 的 算法 ， 并 使 用 和 CC 语言 绑 定 的 OpenMPI 应 用 程序 编程 接口 (Appli- 
cation Programming Interface，API) 来 编写 并 行程 序 。 

本 书 中 两 部 分 内 容 的 简要 介绍 如 下 。 


第 一 部 分 : 基于 消息 传递 接口 的 高 性 能 计算 


第 1 章 首 先 简单 介绍 了 HPC 世界， 然后 讲解 了 Amdahl 定律 和 Gustafson 定 
律 ， 这 两 个 定律 刻画 了 并 行程 序 的 理论 最 优 加 速 比 和 扩展 加 速 比 。 

第 2 章 讲解 了 MPI 的 主要 概念 和 编程 接口 : 阻塞 排 阻塞 通信 的 概念 、 死 锁 和 多 种 
全 局 通信 函数 (例如 broadcast、scatter、gather、all-to-all、reduce、parallel prefix 等 ) 。 

第 3 章 着 重 介绍 了 互联 网 络 拓扑 的 作用 。 我 们 首先 区 分 物理 拓扑 和 虚拟 拓 
扑 ( 或 称 为 远 辑 拓扑 )， 并 在 设计 并 行 算法 的 时 候 考 虑 不 同 网 络 拓扑 对 性 能 的 影 
响 。 特 别 讲解 了 环形 (包括 优化 的 流水 线 广播 ) 和 超 立 方 体 形 网 络 拓扑 上 的 通信 
过 程 ， 后 者 依赖 于 节点 的 特定 编号 ， 称 为 格雷 码 。 

第 4 章 讲解 了 基于 分 布 式 内 存 的 主要 的 并 行 排序 算法 。 首 先 对 著名 的 快速 
排序 算法 (Quicksort) 进 行 了 简单 的 并 行 化 ， 然 后 介绍 实际 中 广泛 使 用 的 Hyper- 
Quicksort 和 PSRS( Parallel Sorting by Regular Sampling) 算 法 。 

第 5 章 研 究 了 一 些 和 矩阵 相 乘 和 向 量 相 乘 的 算法 ， 并 简要 介绍 了 在 环 和 环 面 
Ctorus) 的 拓扑 结构 中 计算 和 矩阵 乘积 的 各 种 技术 。 

第 6 章 介 绍 了 一 个 比较 热门 的 并 行 编程 范式 ， 称 为 MapReduce( 通 常 与 开源 
系统 Hadoop 一 起 使 用 ) 。MapReduce 可 以 通过 两 个 主要 的 用 户 定义 的 函数 (map 
和 redauce) 来 构建 程序 ， 然 后 部 署 到 大 量 的 网 络 互 连 的 计算 机 上 来 完成 计算 任 
务 。 然而，MapReduce 也 是 一 个 完整 的 框架 ， 包 括 一 个 主 从 架构 。 该 主 从 架构 

能 够 处 理 各 种 硬件 故障 ， 或 者 当 一 些 机 器 执行 得 太 慢 时 ， 将 这 些 机 器 上 的 并 行 计 算 
任务 (作业 ) 重 新 发 送 到 其 他 的 机 器 上 执行 。 该 章 还 讲解 了 如 何 利 用 专门 的 名 为 
MR-MPI 的 软件 库 在 MPICMPI 没有 容错 能 力 ) 中 实现 这 些 类 型 的 MapReduce 算法 。 


第 二 部 分 : 面向 数据 科学 的 高 性 能 计算 


这 部 分 简要 介绍 了 数据 科学 ,并 进一步 讲解 了 如 何 使 用 MPI 并 行 化 数据 科 

学 中 的 算法 。 

首先 介绍 了 两 个 最 基本 的 数据 聚 类 技术 ， 分 别 是 平面 划分 聚 类 (第 7 章 ) 和 
层次 树 聚 类 (第 8 章 ) 。 聚 类 是 探索 性 数据 科学 中 一 个 非常 重要 的 概念 ， 用 于 发 
现 数据 集中 的 分 类 、 同 质数 据 中 的 分 组 。 

第 9 章 介 绍 了 基于 上 最 近邻 规则 (k-nearest neighbor) NA hi BOA, Ak 
均值 (k-means) 聚 类 算法 进行 关联 。 

第 10 章 介 绍 了 另 一 个 计算 科学 中 的 新 范式 ， 人 允许 人 们 在 大 型 数据 集 ( 潜 在 
的 高 维度 ) 上 解决 优化 问题 。 i Aa FG BE SARA D cae ste 这 些 核 心 
集 就 是 原 数 据 集 的 子 集 ， 而 且 和 原 数 据 集 相 比 具 有 良好 的 近似 性 。 这 种 技术 最 近 


变 得 非常 流行 ， 能 够 将 大 数据 (big data) 缩小 到 小 数据 (tiny data)! 由 于 数据 通常 具 
有 高 维度 特征 ， 所 以 还 简要 介绍 了 一 种 有 效 的 线性 降 维 技 术 ， 其 中 讲解 了 Johnson- 
Lindenstrauss 定理 ， 并 给 出 一 个 简单 的 方法 计算 低 失 真 伐 和 人， 从 而 将 数据 从 高 维 转 
化 为 低 维 ， 并 确保 在 规定 的 近似 因子 内 数据 点 之 间 的 距离 保持 不 变 。 有 趣 的 是 ， 嵌 
和 的 维度 与 原始 外 在 维度 无 关 ， 而 是 依赖 于 数据 集 大 小 的 对 数 和 近似 因子 。 

第 11 章 涵盖 了 一 些 图 (graph) 算 法 。 图 在 社交 网 络 分 析 和 其 他 应 用 领域 中 是 
比较 常见 的 。 因 此 首先 介绍 一 个 顺序 启发 式 方法 和 一 个 并 行 启发 式 方法 来 查找 图 
的 稠密 子 图 ， 该 子 图 近似 于 “最 稠密 ” 子 图 。 然 后 介绍 了 在 计算 机 集群 上 利用 分 支 
限界 法 来 进行 图 同 构 检测 。 图 同 构 检 测 是 一 个 备 受 关 注 的 问题 ， 因 为 它 的 理论 复 
杂 度 还 没有 得 到 解决 (尽管 对 于 图 的 某 些 特定 子 类 存在 一 些 多 项 式 算法 ) 。 

每 章 最 后 会 对 该 章 的 一 些 要 点 进行 总 结 。 请 读者 浏览 这 些 总 结 ， 以 便 进行 
第 一 遍 快速 阅读 。 在 一 些 章节 结束 时 会 给 出 40 多 道 练习 题 ， 这 些 练习 标 有 各 种 
难度 ， 并 人 允许 读者 对 练习 所 涵盖 内 容 的 理解 程度 进行 自 测 。 以 星 号 开头 的 部 分 
可 以 先 跳 过 ， 稍 后 再 进行 阅读 。 

本 书 的 主要 目的 是 帮助 读者 设计 并 行 算 法 ， 然 后 利用 C 十 十 和 C 语言 绑 定 的 
MPI 编 写 程序 实现 相应 的 并 行 算法 。 第 二 个 目的 是 让 读者 对 高 性 能 计算 和 数据 
科学 有 更 深刻 的 了 解 ， 并 希望 更 好 地 促进 两 者 之 间 的 交 又 。 

本 书 是 关于 高 性 能 计算 和 数据 科学 的 人 门 教材 ， 面 向 具有 基本 算法 知识 和 
编程 能 力 的 读者 。 因 此 ， 本 书 不 包含 (也 没有 提 及 ) 高 性 能 计算 和 数据 科学 领域 
的 高 级 概念 。 例 如 ， 任 务 调度 问题 和 嵌 套 循环 的 自动 并 行 化 虽然 在 高 性 能 计算 
中 很 重要 ,但 是 本 书 并 没有 涉及 。 类 似 地 ， 本 书 也 省 略 了 数据 科学 领域 中 的 回 
归 技 术 和 核心 机 器 学 习 方 法 。 


教 辅 资源 


本 书 的 额外 资源 (包括 超过 35 个 用 MPI/C++/R /Scilab /Gnuplot /Processing 
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第 1 章 


走 进 高 性 能 计算 


1. 1 什么 是 高 性 能 计算 


高 性 能 计算 (High Performance Computing，HPC) 是 一 个 综合 的 领域 ， 包 括 各 种 
并 行 编程 范式 、 与 各 范式 相关 的 编程 语言 和 应 用 编程 接口 (Application Programming 
Interface，API) 、 定 制 的 软件 工具 、 专 门 的 国际 会 议 (ACMVIEEE Super-Computing， 
SC) 等 。 笼 统 地 讲 ，HPC 是 一 个 在 科学 和 技术 上 研究 超级 计算 机 (Super Computer, 
SC) 的 领域 。 

世界 排名 前 500 的 超级 计算 机 榜 单 ( 简 称 Top5009 ) 会 定期 更 新 并 发 布 在 互联 网 
E. 在 2014 年 ， 由 中 国 国家 超级 计算 广州 中 心 研制 的 “天河 二 号 ”超级 计算 机 (英文 翻 
译 为 MilkyWay-2) 获 得 了 该 榜 单 的 第 一 名 。 该 超级 计算 机 包含 了 惊人 的 312 万 个 核 ， 
每 个 核 是 一 个 处 理 单元 (PU)， 整 体 性 能 达到 了 54. 9PFlops，PFlops 表示 每 秒 10” 次 
浮 点 运算 。 这 个 排名 第 一 的 超级 计算 机 需要 17. 8MW 的 电力 才能 正常 工作 ! 粗略 地 
算 ，1MW 的 电力 大 约 花 费 100 美元 /时 ， 这 意味 着 该 超级 计算 机 每 年 的 电费 大 约 是 1 
百 万 美元 。 

表 1-1 总 结 了 (超级 ) 计 算 机 的 处 理 能 力 和 内 存 大 小 对 应 的 规模 数量 级 。 如 今 ， 国 
内 外 的 各 超级 计算 团队 正在 研制 Exaflop 性 能 的 超级 计算 机 (10 Flops, 1024PFlops), 
期 望 在 2017 一 2020 年 间 实 现 这 一 目标 ， 紧 接着 ， 在 2030 年 让 超级 计算 机 的 性 能 迎 来 
zetaFlops(10?! ) 时 代 ， 然 后 是 yottaFlops(102 ) ， 并 一 直 保 持 性 能 不 断 提 升 。 

表 1-1 超级 计算 机 的 计算 性 能 和 内 存 大 小 所 对 应 的 规模 数量 级 : 超级 计算 机 是 根据 Flops 

(每 秒 的 浮 点 运算 次 数 ) 和 内 存 的 字 节 (8 位 为 1 字 节 ) 容 量 进行 排序 的 





单位 规模 计算 性 能 内 存 大 小 ( 字 节 ) 
K (kilo) 103 KFlops KB 
M (mega) 10° MFlops MB 
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( 续 ) 

单位 规模 计算 性 能 内 存 大 小 ( 字 节 ) 
G (giga) 10° GFlops GB 
T (tera) 10" TFlops TB 
P (peta) 1015 PFlops PB 
E (exa) Jo" EFlopsC2017 — 2020 年 ) EB 
Z (zeta) 10"! ZFlops ZB 
Y (yotta) 10" YFlops YB 

googol jj googolFlops googol 5 5 


85 E FE 3É4ECSD; KiC), Mit), Gi, Ti(27), Pi(2?), Eo(29), Zo(27?)4e Yi(280 ) 

这 个 传统 的 超级 计算 机 评价 标准 只 依据 算术 运算 的 峰值 计算 速度 ， 而 完全 忽略 了 
为 了 达到 这 样 的 计算 速度 所 消耗 的 能 源 。 另 外 一 个 绿色 的 榜 单 叫 作 绿色 HPCS (green 
HPC)， 每 年 评比 两 次 ， 该 榜 单 根据 超级 计算 机 的 MFlops/W 对 各 超级 计算 机 进行 评 
IE. f£ 2014 ^E 11 月 ,来 自 GSI 交 姆 霍 兹 中 心 (德国 ， 达 姆 施 塔 特 ) 的 L-CSC 超级 计算 
机 取得 了 5.27 GFlops/W 的 性 能 。 比 照 来 看 ，L- CSC 超级 计算 机 在 Top500 排行 榜 中 
列 168 位 ， 共 10 976 个 核 ， 并 且 其 峰值 计算 速度 达到 了 593. 6TFlops。 尽 管 处 理 能 力 
是 一 个 非常 重要 的 评价 标准 (同时 也 是 激励 研究 人 员 不 断 开 发 HPC 解决 方案 的 重要 因 
素 )， 但 同时 我 们 也 需要 考虑 其 他 因素 ， 例 如 整体 的 内 存 大 小 、 互 联网 络 的 带宽 等 。 最 
后 ， 我们 需要 指出 每 GFlops 的 花费 正在 呈 指 数 下 降 ， 在 2015 年 1 月 ,每 GFlops 估计 
花费 0. 08 美元 。 


1.2. 为 什么 我 们 需要 HPC 


对 此 ， 浮 现在 人 们 脑海 中 的 第 一 个 答案 是 HPC 有 助 于 更 快 、 更 加 准确 地 (对 于 模 
拟 类 的 应 用 ， 例 如 天 气 预 报 、 汽 车 碰撞 测试 中 的 计算 力学 ， 或 者 其 他 各 种 复杂 现象 的 
建 模 ) 运 行程 序 。HPC 还 能 解决 更 大 规模 的 问题 : 在 更 细 粒 度 的 网 格 或 者 更 大 的 数据 
集 ( 大 数据 趋势 ) 上 进行 模拟 。 但 是 很 少 有 人 知道 HPC 同样 有 助 于 节约 能 源 : 在 相同 的 
浮 点 计算 性 能 下 ， 我 们 更 倾向 于 使 用 低 功 耗 的 处 理 器 ， 因 为 高 功 耗 的 处 理 器 需要 消耗 
更 多 的 能 源 才能 正常 工作 。 最 后 一 点 ，HPC 非常 适合 某 些 在 本 质 上 具备 天 然 并 行 性 的 
算法 。 实 际 上 ， 在 图 像 或 视频 处 理 领域 用 到 的 算法 经 常 需要 进行 滤波 计算 ， 这 种 运算 
是 针对 每 个 像素 或 体 素 ( 医 学 图 像 中 ) 独 立 进 行 的 ， 因 此 滤波 计算 可 以 并 行 执行 。 在 后 一 
种 情况 下 ， 图 像 显 卡 (图 像 处 理 单 元 ，GPU) 是 一 个 众 核 ( 现 今 已 经 有 几 千 个 核 ) 硬 件 显卡 。 
举例 来 说 ， 一 个 高 端的 NVIDIA 显卡 拥有 1536 个 核 ， 计 算 速度 能 够 达到 2. 3TFlops。 





> http://www. green500. Org/ 。 
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AMD Radeon Sky 900 GPU 拥有 3584 个 核 ， 计算 速度 能 够 达到 1. 5TFlops( 双 精度 浮 点 )。 
那些 GPU 显卡 不 仅 能 够 用 于 生成 高 质量 的 图 像 ， 也 能 应 用 在 通用 计算 中 ,我 们 称 这 种 计 
算 为 GPGPU( 通 用 图 像 处 理 单元 ) 模 式 。 

现在 我 们 来 更 加 准确 地 描述 一 些 应 用 超级 计算 的 实例 : 

e 在 超级 计算 机 上 利用 模型 进行 模拟 。 如 果 不 采 用 这 种 方法 ,我们 可 能 需要 建造 
一 人 台 鼓 风机 或 风 洞 来 进行 测试 ,或 者 是 花费 巨 资 进行 汽车 /飞机 的 碰撞 测试 ,或 
者 是 耗费 大 量 的 时 间 在 普通 计算 机 上 模拟 气候 、 星系 的 演变 ,或 者 是 在 现实 中 
冒 着 生命 危险 进行 核武 器 、 药 品 、 环 境 污 染 、 传 染病 的 测试 。 
能 够 快速 地 获取 结果 并 且 没 有 延迟 。 具 体 的 含义 是 超级 计算 机 能 够 及 时 处 理 在 
线 算 法 生成 的 不 断 累 加 的 数据 : 一 些 数 据 是 具有 时 效 性 的 ， 例 如 天 气 状 况 ， 如 
果 我 们 不 能 在 明天 到 来 之 前 预测 出 明天 的 天 气 ， 那 么 这 些 数据 就 失去 了 价值 。 
比较 类 似 的 情况 是 ， 如 果 能 够 成 为 第 一 个 获取 结果 的 人 ， 就 能 够 尽快 地 做 出 决 
定 ( 例 如 在 股票 市 场 ， 通 过 高 频 交 易 算法 自动 地 预订 订单 )。 
处 理 大 数据 集 ， 例 如 基因 组 分 析 或 者 基因 组 系 ， 甚 至 是 搜寻 地 外 文明 (查看 
SETI Ji H9), 


1.3 大 数据 : 四 个 特性 (数据 量 、 多 样 性 、 生 成 速度 、 价 值 ) 


大 数据 是 一 个 在 多 媒体 领域 广泛 使 用 的 术语 ， 它 包含 了 多 种 含义 。 我 们 可 以 把 它 
定义 为 处 理 海 量 数据 的 技术 ， 或 者 是 进行 大 规模 数据 处 理 的 技术 。 我 们 能 够 用 四 个 特 
性 (4 个 V) 来 总 结 大 数据 的 处 理 过 程 : 

e 数据 量 (Volume) 。 

。 多 样 性 (Variety)， 异 构 数 据 。 

。 生 成 速度 (Velocity)， 不 断 地 从 传感器 中 获取 数据 。 

© 价值 (Value) ， 并 非 模拟 数据 而 是 有 价值 的 真实 数据 。 


1.4 并行 编 程 范式 : MPI 和 MapReduce 


现在 已 经 存在 一 些 为 大 数据 (HPC 的 子 领域 ) 开 发 的 并 行 算法 编程 范式 。 这 些 范式 
依赖 于 它们 在 计算 机 或 网 络 出 错 ( 例 如 硬件 错误 ) 的 情况 下 的 鲁 棒 性 。 如 今 ， 两 个 互补 
的 编程 范式 逐渐 成 为 了 主流 ， 它 们 分 别 是 : 
© MPI( 消 息 传递 接口 ) 编 程 。MPI 对 硬件 或 网 络 错误 没有 和 鲁 棒 性 ,但 是 为 程序 员 
提供 了 一 个 灵活 的 编程 框架 。 





© http://www. seti. org/ 。 
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e MapReduce( 或 者 是 对 应 的 免费 开源 版 本 Hadoop® ) 编程。 MapReduce 包含 一 个 
底层 架构 ， 能 够 应 对 网 络 或 硬件 错误 ， 但 是 与 MPI 相 比 ， 它 的 编程 方式 非常 
有 限 。 


1.5 粒度 : 细 粒 度 并 行 与 粗 粒 度 并 行 


在 设计 和 实现 并 行 算法 时 ， 我 们 可 以 选择 各 种 并 行 粒 度 。 通 俗 地 讲 ， 粒 度 是 指 代 
码 中 能 够 被 并 行 化 的 部 分 所 占 的 比例 。 粒 度 也 可 以 解释 为 在 一 个 并 行 算法 中 计算 时 间 
与 通信 时 间 的 比例 。 根 据 并 行 算 法 的 粒度 ,我们 将 其 划分 为 三 大 类 。 

© 细 粒 度 并 行 (fine-grained parallelism): 在 同一 个 任务 内 的 变量 级 别 并 行 。 数 据 
经 常 在 不 同 的 计算 单元 间 传 输 。 从 最 初 的 基于 x86 架构 (1978 年 发 布 ) 的 通用 微 
处 理 器 的 指令 集 已 经 衍生 出 多 种 扩展 指令 集 ， 例 如 MMX、SSE 或 者 SSE2 等 。 
多 数 的 扩展 指令 集 都 支持 SIMD 指令 (Streaming SIMD Extensions? ), 。 细 粒度 
并 行 也 依赖 于 显卡 的 GPU 代码 片段 。 
中 粒度 并 行 (mid-grained parallelism): 在 同一 个 程序 中 的 线程 级 别 并 行 。 
粗 粒 度 并 行 (coarse-grained parallelism): 在 大 数据 块 计算 完 成 后 ， 通 常会 进行 
有 限 次 数 的 数据 传输 。 粗 粒度 并 行 同样 可 以 在 程序 级 别 完成 ， 通 过 调用 任务 调 
度 器 来 处 理 每 个 任务 在 计算 机 集群 (并 行 机 ) 上 的 执行 。 


1.6 超级 计算 架构 : 内 存 和 网 络 


我 们 将 并 行 计算 机 分 为 两 类 : 基于 共享 内 存 的 并 行 机 和 基于 分 布 式 内 看 的 并 行 机 。 
通常 ， 在 一 个 多 核 处 理 器 上 ， 所 有 核 使 用 同一 个 (共享 ) 存 储 器 组 (memory bank): 这 
种 架构 将 所 有 的 核 视 为 独立 的 处 理 单元 ， 因 此 也 称 为 对 称 共享 内 存 多 处 理 器 (Symmet- 
ric Shared Memory Multiprocessor，SMP)。 当 我 们 谈 及 并 行 计 算 的 共享 内 存 模型 时 ， 
还 需要 考虑 各 种 不 同类 型 的 共享 内 存 : 位 于 处 理 器 内 部 的 高 速 寄存 器 和 L1, L2, L3 
缓存 (L 代表 层 的 概念 ， 强 调 了 层次 存储 结构 )、 硬 盘 ( 磁 盘 阵 列 )、 固 态 硬盘 (SSD)、 
备份 用 的 磁带 等 。 

在 实际 中 ， 为 了 充分 发 挥 计算 机 的 性 能 ， 我 们 需要 考虑 访 存 时 的 数据 空间 局 部 性 。 
例如 ， 我 们 比较 以 下 两 个 C/C 十 十 /Java BIHECE (8 9e : 

for (int j-0; j«n; +*j) 

E (int i-0; i«n; ++i) 


(y[i] += aflilfj] * lji} 
} 





©  http;//hadoop. apache. org/ 。 


© http: //fr. wikipedia. org/wiki/Streaming SIMD Extensions, 
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以 及 

for (int i=0; i<n; ++i) 

for (int j=0; j<n; ++j) 

y tyri] += &[ijlg] * xla het 

理论 上 ， 这 两 个 代码 具有 相同 的 时 间 复 杂 度 : 平方 时 间 ， 即 O). RERE. 
为 了 进行 快速 内 存 访问 ， 编 译 器 会 对 代码 进行 各 种 各 样 的 优化 (比如 缓存 变量 、 指 邻 
流水 和 预 取 )。 为 了 准确 地 获得 两 个 代码 的 运行 时 间 ， 我们 令 n=10 000， 未 优化 代码 的 
运行 时 间 为 1.45s. 优化 后 代码 的 运行 时 间 为 0.275s。 优 化 代码 使 用 g++ -0 命令 编译 。 

与 共享 内 存 架 构 相 反 ， 基 于 分 布 式 内 存 的 并 行 集群 通过 互联 网 络 将 每 个 独立 的 计 
算 机 连接 起 来 。 互 联网 络 所 使 用 的 拓扑 结构 不 仅 影响 着 通信 效率 ， 也 表明 了 该 拓扑 结 
构 对 应 的 硬件 成 本 。 图 1-1 展示 了 互联 网 络 中 常用 的 拓扑 结构 。 我 们 将 总 线 互 联网 络 
和 完全 图 互联 网 络 区 分 开 来 。 消 息 可 以 通过 点 对 点 (例如 ， 使 用 总 线 或 完全 图 互联 网 
络 ) 的 方式 或 者 是 以 中 间 节 点 为 路 由 的 方式 进行 交换 。 


53988 CJ x 
Hm dE 


网 格 


超 立 方 树 胖 树 


图 1-1 在 分 布 式 内 存 集群 上 常见 的 互联 网 络 拓扑 结构 。 通信 链 路 可 以 是 单 向 或 双向 的 


1-2 以 示意 图 的 方式 描述 了 近 十 年 间 计算 机 体系 结构 的 发 展 : 随 着 光 刻 等 制作 
工艺 的 显著 提升 ， 以 前 的 由 4 个 计算 机 互联 的 小 型 网 络 现在 可 以 集成 在 一 个 4- 处 理 器 
的 计算 机 中 ， 其 中 ， 为 了 提高 通信 效率 每 个 处 理 器 通过 插 模 (socket) 连接 到 主板 上 。 
近年 来 ， 已 经 出 现 了 4 核 CPU，4 个 核 通过 一 个 CPU 插 槽 与 主板 相连 ， 以 此 来 提升 通 
信 效 率 。 然 而 ， 单 个 CPU 仅 能 集成 少量 的 核 ， 并 且 无 法 (当前 还 没有 办 法 ) 扩 展 到 更 
多 核 。 





O ”查看 g 十 十 的 一 O 选项 。 查 看 其 他 选项 可 以 用 g 十 十 一 help。 
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计算 机 
CCPU ) 





4 个 计算 机 通过 互联 网 络 连 接 4 个 处 理 器 集成 在 一 个 主板 上 ”4 核 处 理 器 
图 12 计算 机 体系 结构 的 发 展 : 从 小 型 的 互联 计算 机 到 多 处 理 器 计算 机 再 到 现在 的 多 核 计 算 机 


在 分 布 式 内 存 架 构 中 ， 每 一 个 处 理 器 都 有 一 个 与 之 关联 的 本 地 内 存 : 在 这 个 模型 
中 没有 共享 内 存 。 当 访问 另 一 个 进程 的 内 存 时 ， 需 要 显 式 地 调用 内 存 访问 操作 ， 并 通 
过 互联 网 络 进行 消息 交换 。 图 1- 3 展示 了 基于 分 布 式 内 存 的 集群 架构 ， 同 时 本 书 也 重 
点 介绍 该 类 架构 。 在 分 布 式 内 存 架 构 中 ， 互 联网 络 决定 了 数据 访问 的 速度 。 一 般 来 说 ， 
需要 考虑 互联 网 络 的 三 个 特性 。 





利用 MPI 进 行 消息 传递 








图 1-3 基于 分 布 式 内 存 的 并 行 机 架构 : 各 节点 通过 MPI 进行 消息 传递 (利用 标准 API 
MPI 发 送 和 接收 消息 ) 


e iR, 发 起 一 个 通信 所 需要 的 时 间 。 

e p. 通信 链 路 上 数据 的 传输 速率 。 

e 拓扑 : 互联 网 络 的 物理 结构 (例如 星 形 拓扑 或 网 格 拓扑 ) 。 

现在 已 经 存在 多 种 并 行 编程 模型 。 在 向 量 超级 计算 机 (例如 Cray 超级 计算 机 ) 上， 
可 以 使 用 单 指令 多 数据 (Single Instruction Multiple Data，SIMD) 的 并 行 编程 模型 。 在 
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基于 共享 内 存 的 多 核 计算 机 上 ， 可 以 使 用 多 线程 和 其 相应 的 标准 API OpenMP? (开放 
的 多 平台 共享 内 存 并 行 编程 ) 进 行 编程 。 我 们 也 可 以 使 用 异 构 计 算 ， 利 用 GPU 完成 部 
分 计算 。GPU 可 以 通过 多 个 API 进行 控制 ,例如 CUDA、OpenCL、HMPP。 最后， 
我 们 可 以 使 用 混合 编程 方式 ， 即 每 个 MPI 进程 生成 多 个 线程 ， 也 可 以 同时 使 用 异 构 计 算 
和 混合 编程 方式 ， 即 每 个 多 核 处 理 器 节点 使 用 MPI 和 GPU 接口 编程 。 图 1-4 展示 了 一 个 
计算 机 集群 的 架构 。 为 了 简明 起 见 ， 本 书 假设 每 个 进程 运行 在 不 同 节 点 中 的 一 个 处 理 单 
元 (CPU 或 者 核 ) 上 。 


(拓扑 ) ; 
d 4 处 理 器 机 器 





现代 机 器 : 
多 核 CPU 附加 多 个 GPU 计算 卡 





计算 机 集群 


图 1-4 一 个 计算 机 集群 架构 : 计算 资源 位 于 节点 内 ， 每 个 节点 通过 互联 网 络 连接 。 连 接 到 集 
群 (并 行 机 ) 上 的 计算 机 可 以 是 一 个 简单 的 计算 机 (一 个 CPU)， 或 者 是 多 处 理 器 机 器 (一 
个 主板 上 集成 了 多 个 CPU), 或 者 是 现代 的 多 核 CPU 附加 多 个 GPU 计算 卡 。 在 理论 
上 ， 为 了 简明 起 见 ， 假 设 每 个 进程 运行 在 不 同 节点 中 的 一 个 处 理 单元 (CPU 或 者 核 ) 上 


1.7 加 速 比 


A tseq 表 示 顺 序 程序 (也 称 作 串 行程 序 ) 的 运行 时 间 ，tp 表示 对 应 的 并 行程 序 在 P 
个 处 理 器 上 的 运行 时 间 。 令 on 表示 并 行程 序 在 P=1 个 处 理 器 S 上 的 运行 时 间 。 现 在 
我 们 定义 以 下 三 个 量 。 
ty 


t t 
e mitt: speedup(P)=—, HHA = 
tp tp tp 





C http;//openmp. org/. 
O 为 了 简明 起 见 ， 假 设 每 个 进程 运行 在 分 布 式 集群 中 不 同 的 处 理 器 上 。 








。 效率 ，e 一 SPee 一 下 吕 -， 低 效率 意味 着 高 并 行 负载 (与 线性 加 速 比 相 
ye 


e 扩展 性 : scalability(O， pei HO<P, 


1.7.1 扩展 性 和 等 效率 分 析 

多 数 情况 下 ， 我 们 更 加 关注 并 行 算法 在 已 个 处 理 器 上 运行 时 的 扩展 性 。 实 际 中 ， 
计算 机 集群 可 能 会 为 程序 动态 地 分 配 节 点 (例如 ， 其 他 程序 完成 后 ， 集 群 可 能 会 将 其 占 
用 的 资源 分 配给 正在 运行 的 程序 ) ， 我 们 希望 程序 能 够 及 时 适应 并 充分 利用 这 些 动态 分 
因此 ， 一 个 可 扩展 的 并 行 算法 能 够 很 容易 地 运行 在 任意 已 个 处 理 器 上 。 对 

一 个 给 定 的 问题 规模 n， 当 我 们 增加 处 理 器 个 数 P 时 ,程序 的 效率 会 呈现 下 降 趋势 。 
um 为 了 维持 一 个 好 的 加 速 比 ， 当 PP 增加 时 ， 我们 同样 增加 输入 的 数据 规模 n: 更 
确切 地 说 ， 参 数 n( 数 据 规模 ) 和 已 (处 理 器 个 数 ) 是 相关 的 。 

以 上 所 提 到 情形 正 是 等 效率 (isorefficiency) 分 析 的 关注 点 。 等 效率 分 析 的 一 个 关键 问题 
是 ， 为 了 保持 效率 始终 为 一 个 常数 ”如 何 将 输入 规模 的 增长 速率 o 表示 成 处 理 器 个 数 的 
函数 。 并 且 o 越 小 越 好 ! 因此 ， 对 于 一 个 给 定 的 问题 ， 我 们 需要 设计 一 个 拥有 和 良好 等 效 
率 的 算法 。 


1.7.2 Amdahl 定律 : 描述 数据 规模 固定 时 渐 近 加 速 比 的 变化 趋势 


Gene M. AmdahlCIBM fE 1967 年 第 一 次 提出 了 理想 情况 下 性 能 的 加 速 比 吕 ， 如 
下 所 示 : A ww 表示 代码 中 可 并 行 化 部 分 所 占 的 比例 ，as 表 示 本 质 上 串 行 (不 可 并 行 
化 ) 部 分 所 占 比例 ， 且 ap 十 cs 王 1。 现 在 ， 我 们 可 以 用 数学 公式 表示 并 行程 序 在 P 个 
处 理 器 上 的 运行 时 间 tp: 











tp = Gseq ÉI se CU — hen d 5 =a Qpar 5 二 asta 
speedup( P) — E _ apa Taseq dt _ 1 
Q par Q par 
" (as T ! aa O seq 十 P 


由 以 上 公式 可 知 ， 随 着 处 理 器 数量 趋 近 于 无 穷 (P-~c=e)， 加 速 比 的 上 限 由 as 二 
1 一 apar 决 定 ， 也 就 是 代码 中 不 可 并 行 化 的 部 分 ， 具 体 公 式 如 下 所 示 : 


lim apeedup(E) == = 3 - 
bn Aseq i Qpar 


图 1-5 绘制 了 在 区 间 OSa 1 P3. PARK speedupCP) 的 变化 趋势 ， 其 中 工 轴 使 用 
对 数 刻 度 。Amdahl 定律 反映 了 并 行程 序 中 的 串 行 瓶颈 。 
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NN RE Ef esed 


Y DE. F © 0.9 == 
i i E 0.95 = 
64 256 1024 4096 16384 65536 


处 理 器 个 数 CP) 
图 1-5 Amdahl 定律 将 加 速 比 表示 成 可 并 行 化 部 分 所 占 比例 的 函数 。 图 中 zt 轴 使 用 对 数 


刻度 。 从 图 中 可 以 看 出 ， 最 大 加 速 比 总 的 上 限 总 是 一 ， 其 中 a 表示 品行 代码 








所 占 比例 
定理 1 Amdahl 定律 给 出 了 一 个 并 行程 序 的 最 优 渐 近 加 速 比 ， 醋 speedup 一 一 一 
seq 
pL 其 中 apar 表 示 程 序 中 可 并 行 化 部 分 的 比例 ，aseq 表 示 程 序 中 本 质 上 是 串 行 的 
par 
比例 。 


图 1-5 使 用 Gnuplot9 绘 制 ， 具体 代码 如 下 : 
WWW source code: Amdahl. qnuplot| 








set terminal png 

set output 'Amdahl.png*' 

set encoding iso 8859 1 

set logscale x 2 

set xrange [1:65536] 

set autoscale 

set xlabel "number of processors (P)" 

set ylabel "speed-up" 

set key on right bottom 

set pointsize 2 

Amdahl(p,s) = 1/(s + ( (1-s)/p)) 

set grid 

show grid 

plot Amdahl(x,1-0.75) title "0.75" lt -1 lw 3,\ 
Amdahl(x,1-0.90) title "0.9" lt -1 lw 5, \ 

Amdahl(x,1-0.95)title "0.95" lt -1 lw 7 


昌 免费 的 绘图 工具 ， 可 以 从 http: //www. gnuplot. info/ 网 站 下 载 。 


第 了 章 ” 走 进 高 性 能 计算 11 





值得 注意 的 是 ，Amdahl 定律 假设 输入 的 数据 规模 是 固定 的 (这 不 是 一 个 强 假设 ， 
因为 很 多 程序 的 输入 规模 是 不 变 的 )。 换 言 之 ,数据 规模 确定 后 便 不 再 改变 。 这 表明 无 
论 我 们 用 多 少 个 处 理 器 (P) 运 行程 序 ， 理 论 上 的 最 大 加 速 比 始 终 趋 近 于 串 行 代码 所 占 


比例 的 倒数 : speedup- —, 如 图 1-6 所 示 。 我 们 还 应 注意 到 ， 随 着 P 不 断 增 加 ， 性 
能 与 价格 的 比值 快速 下 降 。 
P=] P3 P-4 P— œ 


f hu | 
4 


时 间 





S=1 S=3 s=% S S=5 


“ls 


图 1-6 Amdahl 定律 阐述 了 在 数据 规模 固定 的 情况 下 ， 最 大 加 速 比 的 上 限 可 以 表示 成 囊 ” 
行 代码 所 占 比例 的 倒数 。 在 此 图 中 ， 最 大 加 速 比 趋 近 于 5 


尽管 加 速 比 的 理论 上 限 由 了 决定 , 但 是 有 时 在 实际 中 我 们 可 以 获得 更 好 的 加 速 
比 ! 这 就 是 说 ， 我 们 有 时 可 以 观察 到 超 线性 趋势 的 加 速 比 。 第 一 次 看 到 这 个 的 人 可 能 
会 感到 惊讶 ， 但 是 这 个 现象 可 以 很 容易 地 通过 层次 存储 架构 来 解释 。 例 如 ， 当 使 用 忆 
个 计算 机 并 行 地 处 理 n 个 数据 时 ， 我们 隐 伟 地 假设 了 每 个 计算 机 能 够 在 本 地 内 存 


(RAM) 中 存储 训 个 数据 。 然 而 ， 如 果 只 使 用 一 个 计算 机 处 理 个 数据 ， 那 么 pude 





可 以 存储 在 RAM 中 ， 但 剩余 的 "5 个 数据 则 需要 存储 在 硬盘 中 ， 并 且 硬 盘 的 访问 速 


度 要 远 远 小 于 RAM 的 访问 速度 。 这 样 ， 对 于 大 数据 集 ， 我 们 可 以 通过 将 数据 存储 在 
每 个 计算 机 的 本 地 内 存 (RAMD) 中 的 方式 来 观察 超 线 性 加 速 比 。 


1.7.3 Gustafson 定律 : 可 扩展 的 加 速 比 ， 随 着 资源 的 增加 不 断 扩大 数据 量 


Gustafson 定律 . 引 曾 述 了 数据 并 行 化 带 来 的 影响 ， 从 一 个 记 新 角度 对 Amdahl 定律 
发 起 了 挑战 。 在 Gustafson 定律 中 ,不 再 假设 数据 规模 是 不 变 的 ， 而 是 假设 数据 规模 
依赖 于 处 理 器 的 个 数 P( 可 用 的 资源 )。 因 此 ，Gustafson 定律 和 Amdahl 定律 (假设 输 
和 规模 是 固定 的 ， 并 且 由 于 一 些 本 质 上 串 行 的 代码 ， 造 成 了 这 部 分 串 行 时 间 不 可 压缩 ) 
有 很 大 的 不 同 。 在 实际 中 ，Gustafson 发 现 程序 的 使 用 者 为 了 获得 合理 9 的 整体 运行 时 
间 ， 往 往 会 根据 可 用 的 资源 来 设置 数据 规模 的 大 小 。 这 种 情形 在 视频 处 理 或 医学 成 像 


日 ”在 实际 中 ,我 们 并 不 希望 一 个 程序 运行 在 某 个 数据 集 下 时 需要 100 年 才能 完成 。 
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领域 很 常见 ， 为 了 在 合理 的 时 间 内 获得 结果 ， 人 们 首先 会 缩减 图 像 的 数据 量 ， 使 其 能 
够 存储 在 内 存 中 ， 然 后 运行 程序 。 同 样 ， 在 模拟 类 应 用 程序 中 ,数据 规模 的 大 小 取决 
于 所 选用 网 格 的 精度 。 随 着 更 快 的 (多 核 ) 机 器 逐渐 普及 ， 用 户 可 以 为 程序 提供 更 多 的 
数据 。 在 这 种 情况 下 ， 可 以 认为 数据 规模 是 任意 大 的 (例如 ，4K 视频 、8K 视频 等 )。 

我 们 回顾 几 个 变量 的 定义 ， 令 ap 表示 代码 中 可 并 行 化 部 分 的 比例 ，as 二 1 一 aper 表 
示 己 个 处 理 器 上 串 行 代码 所 占 比 例 ， 则 加 速 比 可 表示 为 串 行 的 执行 时 间 te 十 Pru (对 于 
aso -ag, nP. 的 数据 量 ) 与 并 行 执行 时 间 tus tuu BO FEME : 


t PX 
speedup( P) = 2— — P1 t Ll 


seq + par 





因为 根据 定义 ct Sass H7 pra 一 apar， 所 以 可 以 推导 出 加 速 比 为 
tseq 


ELT CP) eus tP Xi = tea tL — au AP 
定理 2 Gustafson 定律 表明 了 最 优 加 速 比 渐 近 于 speedup( P) — PXay,.. HP apar 
表示 代码 中 可 并 行 化 部 分 所 占 比 例 ， 且 apar >00 
当 串 行 部 分 所 占 比 例 固 定 且 问题 规模 增 大 时 ， 则 加 速 比 随 着 处 理 器 个 数 的 增加 而 
HEX. Att, Gustafson 称 他 的 加 速 比 分 析 为 可 扩展 加 速 比 (scaled speedup)。 我 们 观察 
到 , 为 了 保持 固定 的 执行 时 间 , 负载 是 随 着 处 理 器 的 个 数 增加 而 增加 的 。 因 此 ， 
Gustafson 的 观点 是 ， 当 提供 足够 大 的 数据 量 时 ， 一 个 并 行 系统 才 会 展示 出 真正 的 处 理 能 


715 如 图 1-7 所 示 。 


pet" ps9 
“TH (OKT 0 Messa 








图 1-7 Gustafson 加 速 比 定律 认为 数据 规模 应 该 随 着 处 理 器 的 个 数 增加 而 增加 (或 者 假设 
并 行 执 行 时 间 不 变 ) 


1.7.4 在 串 行 计 算 机 上 模拟 并 行 机 


我 们 可 以 在 一 台 传统 计算 机 上 模拟 执行 任何 并 行 算法 ， 模 拟 执行 可 以 通过 串 行 执 
行 卫 个 进程 Pi，…，P， 的 基本 指令 或 代码 段 来 实现 。 一 个 代码 段 定义 为 两 个 同步 屏 
障 语句 ， 即 阻塞 通信 原 语 之 间 的 代码 。 因 此 ， 一 个 并 行 算法 总 能 转换 成 串 行 算法 ， 但 
反之 不 一 定 成 立 : 一 个 并 行 算法 经 常 需要 从 零 开 始 设计 ! 我 们 必须 考虑 如 何 设计 出 高 
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效 的 并 行 算法 。 

理论 上 ， 通 过 在 串 行 计算 机 上 模拟 并 行程 序 ， 我 们 能 够 得 到 以 下 几 个 结论 。 第 一 ， 
最 大 加 速 比 是 O(P) ，P 代表 处 理 器 个 数 。 第 二 ， 它 能 为 某 个 问题 生成 下 界 ， 因 为 利用 
并 行 方法 解决 一 个 问题 的 最 好 的 时 间 复杂 度 是 (2), CC) ch FE BU A 
复杂 度 下 界 。 最 后 ， 我 们 强调 一 点 ， 必 须 保证 Laus :一 个 问题 的 并 行 算法 在 一 个 处 
理 器 上 的 执行 时 间 必 须要 大 于 同样 问题 的 品行 算法 的 执行 时 间 。( 和 否则 ， 这 个 单 节点 的 
并 行 算法 会 更 好 ， 可 以 用 它 来 取代 品行 算法 。) 





1.7.5 大 数据 和 并 行 输入 /输出 


为 了 处 理 大 数据 ， 我 们 需要 读 取 或 存储 超大 文件 ， 或 者 是 大 量 的 小 文件 。 这些 操 
作 称 为 输入 /输出 ， 或 简称 1/O。 在 一 个 分 布 式 内 存 架构 中 ， 可 以 显 式 地 使 用 并 行 IO 
进行 编程 (例如 ， 使 用 多 汇集 MPHOE), 或 者 在 每 个 节点 上 显 式 地 调用 本 地 UO K 
数 。 幸 运 的 是 ， 为 了 避免 这 种 非常 耗 时 的 编程 任务 ， 人 们 开发 出 了 多 个 并 行文 件 系 统 
用 来 处 理 各 种 复杂 的 1/O 操作 。 例 如 ， 为 了 处 理 超 过 PBOO 字 节 ) 级 的 数据 量 ， 超 级 
计算 机 可 以 使 用 免费 软件 LustreS 或 者 IBM 的 GPFS? (General Parallel File System) 。 
另 一 个 比较 流行 的 并 行文 件 系统 是 MapReduce， 它 是 基于 Google 文件 系统 (也 称 作 
GFS) 开 发 的 (或 者 是 HDFS，Hadoop 分 布 式 文件 系统 ) 。 


1.8 ”关于 分 布 式 系统 的 八 个 常见 误区 


最 早 的 大 规模 分 布 式 系统 是 ARPANET 网 络 (1969 4E), 衍生 出 之 后 的 互联 网 。 
另 一 个 世界 范围 的 分 布 式 系统 是 SWIFT 金融 转账 协议 8 (SWIFT 表示 Society for 
Worldwide Interbank Financial Telecommunication， 环 球 银行 金融 电信 协会 ) 。 尽 管 在 
分 布 式 系统 领域 已 经 积累 了 半 个 世纪 的 经 验 ， 但 是 即使 在 现在 ， 设 计 和 扩展 一 个 大 的 
分 布 式 系统 仍然 非常 困难 。 造 成 这 种 情况 的 因素 有 很 多 ，Peter Deutsch(SUN, 1994) 
和 James Gosling(SUN，1997) 列 出 了 以 下 八 个 常见 的 误区 : 


(1) 网 络 是 可 靠 的 。 

(2) 延 迟 为 零 。 

(3) 带 宽 无 限 大 (或 者 至 少 是 足够 大 ) 。 
(4) 网 络 是 安全 的 。 


《5) 网 络 拓扑 是 静态 的 ( 即 网 络 拓扑 是 不 随时 间 变 化 的 )。 


© 从 MPI-2 开始 支持 。 
©  http://lustre. opensfs. org/ 。 
© http://www —03. ibm. com/systems/platformcomputing/products/gpfs/ 。 


®© http://www. swift. com/about_swilt/company_information/swift_history. 
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(6) 只 有 一 个 网 络 管理 员 。 

(7) 数 据 传输 和 程序 迁移 不 需要 成 本 。 

(8) 网 络 是 同 构 的 。 

下 面 简单 地 解释 一 下 这 些 误区 ， 并 阅 明 为 什么 在 实际 中 这 些 假设 不 成 立 。 


误区 1. 网 络 是 可 靠 的 。 许 多 重要 的 程序 需要 不 间断 地 提供 服务 ， 因 此 这 些 程 
序 必 须 能 够 一 直 正 常 工作 并 对 硬件 /软件 崩溃 采用 零 容 忍 策略 。 然 而 ， 当 一 个 路 
由 器 出 现 问题 时 ， 很 可 能 会 出 现 一 系列 无 法 预 估 的 连锁 反应 ， 进 而 导致 一 场 不 
可 预知 的 灾难 (想象 一 个 核电 站 失控 ) 。 为 了 避免 这 种 情形 (或 者 至 少将 影响 降 到 
最 低 )， 我 们 必须 在 硬件 和 软件 中 都 引入 元 余 措 施 。 在 实际 中 ， 是 根据 对 系统 投 
人 资源 的 多 少 (或 元 余 措 施 的 多 少 ) 来 进行 风险 评估 的 。 

误区 2: 延迟 为 零 。 在 LAN( 局 域 网 ) 中 ， 延 迟 是 足够 小 的 ， 但 是 在 WAN( 广 域 
网 ) 中 ， 延 迟 会 变 差 。 在 过 去 的 十 一 年 间 ， 网 络 带宽 已 经 增长 了 1500 倍 ， 但 是 
延迟 仅仅 降低 了 1/10。 延 迟 在 本 质 上 受 限于 光 在 光纤 中 的 传输 速度 。 在 实际 
中 ,我 们 可 以 参考 以 下 情形 中 程序 ping 给 出 的 时 间 : 从 地 球 的 一 个 极点 向 另 
一 个 极点 发 送 并 接收 返回 的 数据 包 (rtt， 往 返 时 间 ) 大 概 需 要 0.2s(20 000km X 
2X5us/km 一 0.2s， 忽 略 计算 时 间 )。 将 程序 ping 应 用 于 纽约 和 洛杉矶 之 间 ， 
测量 出 的 时 间 是 40ms。 因 此 ， 当 在 规模 超过 局 域 网 的 网 络 上 部 署 程序 时 ， 我 们 
需要 非常 小 心 网 络 延迟 带 来 的 问题 。 

误区 3: 带宽 无 限 大 。 尽 管 近年 来 带宽 一 直 稳步 上 升 ， 但 是 需要 传输 的 数据 量 
也 在 不 断 上 升 (例如 现今 的 4K 视频 和 即将 到 来 的 SK 视频 )! 同样 ，WAN 中 会 
出 现 网 络 拥 塞 和 数据 包 丢 失 的 现象 ， 这 时 我 们 不 得 不 重新 发 送 数据 (因此 会 增加 
网 络 流量 )。 在 实际 中 ， 路 由 算法 必须 能 够 应 对 这 些 情况 。 

误区 4， 网 络 是 安全 的 。 现今, 已 经 不 会 有 人 再 相信 和 网络 是 安全 的 了 。 更 坏 的 
情况 是 ， 黑 客 的 攻击 正在 呈 指 数 级 别 增加 (有 时 ， 某 些 国际 公司 不 得 不 面 对 每 周 
数 百 次 的 攻击 ) 。 因 此 ; 我 们 必须 为 系统 和 数据 备份 制定 方案 ， 并 且 设 计 应 急 和 
恢复 程序 等 。 

误区 5. 网 络 拓扑 是 静态 的 。 尽 管 在 最 初 开 发 程序 的 时 候 我 们 可 以 假设 网 络 拓 
扑 是 静态 的 ， 但 是 很 明显 ， 在 现实 中 不 可 能 控制 WAN 的 拓扑 结构 。 更 糟 的 情 
况 是 ， 网 络 拓扑 是 不 断 变化 的 。 这 意味 着 ， 当 我 们 部 署 程序 时 ， 需 要 时 刻 考虑 
到 动态 的 网 络 拓扑 并 且 确 保 程序 的 健壮 性 ， 使 其 能 够 适应 各 种 拓扑 结构 。 

误区 6; 只 有 一 个 网 络 管理 员 。 在 最 好 的 情况 下 ， 可 以 假设 网 络 管理 员 从 不 生 
病 并 且 能 够 及 时 地 回复 多 个 用 户 的 请 求 ， 但 即便 如 此 ， 单 个 网 络 专家 也 很 难 应 
对 如 今 复杂 的 网 络 管理 任务 。 在 现实 中 ,我们 需要 多 种 能 力 来 应 对 种 类 繁多 的 
网 络 架 构 和 软件 ， 因 此 ， 只 有 多 个 管理 员 才 能 应 对 这 样 的 需求 。 换 言 之 ， 如 今 
每 个 管理 员 必须 精通 其 所 在 领域 的 专业 知识 ， 因 此 他 们 不 会 再 去 全 面 地 学 习 如 
何 管理 一 个 大 规模 IT 设施 了 。 
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© 误区 7; 数据 传输 和 程序 迁移 不 需要 成 本 。 当 然 ， 网 络 电缆 和 其 他 相关 的 设备 
(例如 路 由 器 ) 都 需要 一 些 成 本 。 但 是 除了 这 些 显而易见 的 成 本 外 ， 在 现实 生活 
中 ， 我 们 还 需要 为 保证 网 络 传输 的 服务 质量 (Quality of Service，QoS) 而 支付 一 
些 费 用 。 同 样 ， 当 我 们 将 一 个 程序 从 一 个 节点 迁移 到 多 个 节点 上 运行 时 ， 程 序 
会 在 多 个 节点 间 进 行 数据 传输 ， 这 样 会 使 得 程序 的 编写 更 加 困难 ， 也 增加 了 开 
发 成 本 。 上 有 具体 而 言 ， 我们 必须 实现 一 个 ( 反 ) 序 列 化 过 程 ， 将 结构 化 数据 转换 成 
位 或 字 节 数 据 ， 使 其 更 容易 在 网 络 上 传输 。 这 样 就 会 为 软件 开发 带 来 额外 的 
开销 。 

e 误区 8: 网 络 是 同 构 的 。 在 大 型 国际 公司 中 ， 员 工 们 使 用 的 计算 机 、 操 作 软 件 
和 解决 方案 软件 都 是 各 不 相同 的 ， 因 此 ， 不同 平台 、 软 件 间 的 互 操作 性 对 于 公 
司 的 平稳 运营 便 显 得 至 关 重 要 。 l 


1.9 注释 和 参考 


本 章 介绍 了 高 性 能 计算 (HPC) 领 域 的 一 些 基 本 概念 。 这 些 概念 在 大 多 数 关 于 并 行 
的 教科 书 中 都 能 看 到 。Amdahl 定律 被 人 们 重新 关注 并 扩展 到 了 能 耗 限 制 下 的 多 核 领 
WEH, Amdahl 定律 和 Gustafson 定律 都 可 以 用 Sun 和 Nit 下 提出 的 内 存 约束 模型 进行 
概括 。 关 于 分 布 式 系统 的 八 个 误区 在 2006 年 的 论文 :中 中 进行 了 详细 介绍 。 随 着 大 数据 
时 代 的 兴起 ， 人 们 开始 探索 如 何在 尽量 短 的 时 间 内 处 理 尽量 多 的 数据 : 大 而 快 的 数据 
目标 通过 最 小 化 延迟 来 实现 数据 流 的 实时 分 析 ( 例 如 ， 源 源 不 断 的 推 特 信息 )， 然 后 将 
结果 传递 给 用 户 。 


1.10 总结 


算法 并 行 化 的 主要 目的 是 为 了 获得 更 高 的 性 能 (减少 时 间 ， 增 加 输出 吞吐 率 ， 减 少 
能 耗 ， 等 等 ) 。 大 规模 的 数据 处 理 依赖 于 超级 计算 机 ， 这 些 超级 计算 机 会 根据 它们 的 
Flops( 每 秒 浮 点 操作 次 数 ) 性 能 进行 排序 ， 即 超级 计算 机 根据 其 每 秒 能 够 处 理 的 最 大 基 
本 浮 点 运算 次 数 进 行 排序 (峰值 性 能 ) 。 在 高 性 能 计算 中 ， 并 行 多 核 计 算 机 和 并 行 计算 
机 (集群 ) 是 两 个 不 同 的 概念 。 并 行 多 核 计 算是 基于 共享 内 存 的 ， 使 用 线程 对 共享 内 存 
进行 操作 。 并 行 计算 机 (集群 ) 是 基于 分 布 式 内 存 的 ， 集群 中 的 机 器 抽象 为 节点 ， 所 有 
节点 通过 一 个 互联 网 络 连 接 。 在 分 布 式 内 存 架构 中 ， 数 据 传输 需要 显 式 地 调用 标准 消 
息 传递 接口 ， 该 接口 称 作 MPI, 包含 了 所 有 的 基本 通信 原 语 。 通 信 的 效率 依赖 于 底层 
的 拓扑 网 络 、 带 宽 、 单 向 /双向 链 路 的 延迟 。Amdahl 定律 严密 地 阐述 了 加 速 比 的 上 限 是 
代码 中 不 可 并 行 化 部 分 所 占 的 比例 。 如 今 ， 我 们 正 向 着 百 亿 亿 次 超级 计算 机 迈进 ， 期 望 
在 2017 一 2020 年 间 实 现 这 个 目标 。 
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输入 规模 

处 理 器 个 数 (或 者 进程 、 节 点 ) 

| 数据 规模 为 n 时 的 顺序 ( 串 行 ) 时 间或 者 ts) 

数据 规模 为 n 时， 在 忆 个 处 理 器 上 执行 的 并 行 时 间 

数据 规模 为 n 时 的 串 行 时 间 

数据 规模 为 n 时 的 并 行 时 间 (P 隐 式 指定 ) 

代价 : 所 有 处 理 器 做 的 工作 : Cp G0 = Pt, (n) 
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Gustafson 扩展 加 速 比 : So P) = au FO aea) P 








ty (n) 


scalabilityCO, P) | 通用 扩展 性 ?2 ， 
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1.11. 练习 


ES Amdahl 定律 ) 在 一 个 程序 中 ，90% 的 部 分 可 以 并 行 化 。 利 用 Amdahl 定律 计算 渐 近 加 束 
比 。 假 设 该 串 行程 序 需要 运行 10 小 时 ， 那 么 任何 并 行 算法 都 无 法 超越 的 临界 时 间 是 多 少 ? 推导 出 最 
大 加 速 比 。 当 程序 中 只 有 1% 的 部 分 可 以 并 行 化 时 ， 再 次 回答 以 上 的 问题 。 

iy 

练习 2( 根 据 Amdahl 定律 估计 可 并 行 化 部 分 的 比例 ) 说 明 如 何 利用 公式 a 一 全 估计 出 可 并 
$1 

行 化 部 分 所 占 的 比例 ， 其 中 S 表示 在 P 个 处 理 器 上 运行 时 测量 的 加 速 比 。 给 定 在 已 个 处 理 器 上 运行 


时 测量 的 加 速 比 S， 推 导出 最 大 加 速 比 的 公式 。 
练习 3(Amdahl 定律 的 上 限 ) 证 明 对 任意 的 处 理 器 个 数 P, 加 速 比 的 上 限 总 是 二 ， 其 中 co 表示 
串 行 代码 的 比例 。 
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第 2 草 


MPI 简介 : 消息 传递 接口 


2.1 基于 MP 的 并 行程 序 设计 : 基于 消息 通信 


并 行 算法 编程 比 串 行 算 法 编程 要 复杂 得 多 ， 并 行程 序 调 试 也 是 如 此 。 事 实 上 ， 存 
在 着 几 种 使 用 不 同 并 行 编程 范式 的 “并 行 机 ”( 并 行 计算 、 分 布 式 计算 ) 抽 象 模型 ， 例 如 : 
e 向 量 超级 计算 机 ， 基 于 单 指令 多 数据 (SIMD) 编 程 模型 ， 使 用 基于 流水 线 的 操作 
来 优化 代码 。 
e 多 核 计算 机 ， 具 有 共享 内 存 并 采用 多 线程 编程 模型 ， 所 有 线程 都 可 以 访问 共享 
内 存 。 程 序 很 容易 崩溃 ， 并 且 有 时 会 因为 在 并 发 访问 共享 资源 时 有 可 能 发 生 冲 
突 而 很 难 进行 调试 。 
e 计算 机 集群 ， 由 具有 分 布 式 内 存 的 高 速 网 络 互 连 的 多 计算 机 构成 。 
本 书 重点 介绍 的 正 是 最 后 一 种 “并 行 机 ”， 即 计算 机 集群 ， 也 就 是 具有 分 布 式 内 存 
的 并 行 编程 范式 。 每 台 计 算 机 可 以 使 用 其 自身 的 本 地 存储 器 来 执行 程序 ， 在 所 有 计算 
机 上 执行 的 程序 可 以 是 相同 的 或 者 不 同 的 ， 这 些 互 连 的 计算 机 之 间 通 过 发 送 和 接收 消 
息 来 协作 完成 所 有 任务 。 
就 集群 的 规模 而 言 ， 我 们 可 以 分 为 以 下 两 类 : 
。 小 型 到 中 等 规模 的 计算 机 集群 ( 即 ， 几 十 到 几 百 ， 有 时 其 至 几 千 计算 机 节点 )， 
通过 发 送 和 接收 消息 进行 通信 。 
e 大 型 计算 机 集群 ( 几 千 到 几 十 万 ， 有 时 甚至 几 百 万 计算 机 节点 )， 面 向 大 数据 处 
理 执 行 相对 简单 的 代码 。 通 常 ， 这 些 大 型 集群 使 用 MapReduce 和 Hadoop 编程 
模型 编程 。 
消息 传递 接口 (MPI) 是 一 种 编程 接口 ， 即 应 用 程序 编程 接口 (API)， 其 恰当 地 定 
义 了 软件 库 的 语法 和 完整 语义 ， 并 提供 标准 化 基本 例 程 以 构建 复杂 程序 。 因 此 ， 通 过 
发 送 和 接收 封装 了 数据 的 消息 ，MPI 可 以 用 来 编写 可 交换 数据 的 并 行程 序 。 使 用 API 
可 以 让 程序 员 避 免 很 多 从 零 开 始 实现 网 络 程序 的 细节 问题 ， 也 可 以 让 系统 ( 院 校 、 行 
业 、 程 序 员 ) 享 受 源 代码 的 互 操作 性 和 可 移植 性 。 重 点 强调 一 下 ，MPI 编程 接口 不 依 
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ei TR aa Pete a PG. 我们 可 以 通过 最 常用 的 ( 串 行 ) 编 程 语言 (例如 C. C++, 
Fortran, Java, Python 等 ) 来 使 用 MPI 命令 。 也 就 是 说 ， 有 多 种 MPI 的 绑 定 语言 是 可 
用 的 。 

MPI 标 准 起 源 于 一 个 1991 年 举办 的 分 布 式 内 存 环 境 专题 研讨 会 。 如 今 ， 我 们 使 用 
的 是 该 标准 的 第 三 版 一 一 MPI-3， 其 标准 化 已 经 完成 并 在 2008 年 公开 发 表 。 我 们 选择 
OpenMPI(http://www. open-mpi. org/) 来 实现 本 书 中 的 编程 示例 。 

需要 强调 的 是 ,在 HPC 领域 中 ，MPI 对 面向 分 布 式 内 存 的 并 行 算 法 来 说 是 最 为 
重要 的 编程 接口 。 认 同 MPI 是 标准 的 有 力 论 据 有 很 多 : 许多 全 局 通信 的 库 函 数 (比如 
广播 ， 即 发 送 消息 给 所 有 其 他 机 器 的 库 函 数 ); 许多 执行 全 局 计算 的 原 语 (比如 使 用 汇 
集 机 制 计算 分 布 在 所 有 机 器 上 的 数据 的 累加 和 )。 实 践 中 ， 这 些 全 局 通信 和 计算 操作 的 
复杂 性 取决 于 集群 机 器 的 互联 网 络 的 底层 拓扑 结构 。 


2.2 并 行 编程 模型 、 线 程 和 进程 


现代 操作 系统 都 是 多 任务 的 : 从 用 户 的 角度 来 看 ,一 些 非 阻塞 的 应 用 似乎 是 “ 同 
时 ”执行 (运行 ) 的 。 这 仅仅 是 一 种 错觉 ， 因 为 在 一 个 中 央 处 理 器 (CPU) 上 ， 一 次 只 能 执 
行 一 个 程序 指令 。 换 句 话 说， 在 CPU 上 ， 只 有 一 个 当前 进程 正在 执行 ， 而 其 他 进程 被 
阻塞 (暂停 或 等 待 晚 醒 ) ， 并 且 等 竺 在 CPU 上 执行 。 任 务 调 度 程序 的 作用 就 是 把 进程 动 
态 分 配给 CPU 。 
现代 的 CPU 拥有 多 个 核 ， 每 个 核 都 是 独立 的 处 理 单元 (PU)， 可 以 真正 并 行 地 在 
每 个 核 上 执行 一 个 线程 。 多 核 架 构 产 生 了 人 允许 并 发 的 多 线程 编程 范式 。 比 如 ， 你 最 喜 
爱 的 互联 网 浏览 器 人 允许 其 标签 里 同时 可 视 化 数 个 页 面 ， 每 个 HTML 页 面 使 用 一 个 独立 
的 线程 ， 该 线程 从 网 络 中 获取 HTMLS /XML 中 的 页 面 内 容 并 且 显 示 出 来 。 分 配给 进 
程 的 资源 在 不 同 线程 之 间 是 共享 的 ,并且 至 少 有 一 个 线程 应 当 具 有 主 main) HA 
可 以 按 下 面 的 方式 描述 线程 的 特点 : 
。 同一 进程 的 线程 共享 相同 的 内 存 区 域 ， 因 此 既 可 以 访问 内 存 中 的 数据 区 域 ， 也 
能 够 访问 其 中 的 代码 区 域 ， 自 然 也 可 以 很 容易 地 访问 同一 进程 的 线程 之 间 的 数 
据 。 但 在 同时 访问 内 存 时 也 会 产生 一 些 困 难 : 在 最 坏 的 情况 下 ， 它 会 导致 系统 
崩溃 ! 该 模型 有 一 种 理论 抽象 ， 也 就 是 所 谓 的 并 行 随机 存 取 机 模型 (Parallel 
Random Access Machine，PRAM) 。 在 PRAM 模型 中 ,我 们 将 在 同时 对 本 地 内 
存 进行 读 或 者 写 操作 时 可 能 发 生 的 各 种 冲突 。 分 为 三 类 : HEJHEJ S Exclu- 
sive Read Exclusive Write sub-model, EREWO, [A] Ff i H. Fk 5j (Concurrent 





o 超 文本 标记 语言 。 
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Read Exclusive Write，CREW) 和 同时 读 同 时 写 (Concurrent Read Concurrent 
Write, CRCW). 
e 这 种 多 线程 的 编程 模型 非常 适合 多 核 处 理 占 ， 并 让 应 用 程序 可 以 运行 得 更 快 ( 例 
如 ， 用 于 给 MPEG4 视频 或 MP3 音乐 文件 编码 ) 或 者 可 以 使 用 非 阻塞 的 应 用 程 
序 ( 比 如 具有 邮件 应 用 的 Web 多 标签 浏览 器 ) 。 
e 进程 和 线程 是 不 同 的 ， 因 为 进程 有 自己 的 非 重 司 的 内 存 区 域 。 因 此， 进程 之 间 
的 通信 必须 并 慎 执 行 ， 特 别 是 使 用 MPI 标准 时 。 
我 们 也 可 以 区 分 单程 序 多 数据 (Single Program Multiple Data，SPMD) 并 行 编程 范 
式 和 多 程序 多 数据 (Multiple Program Multiple Data，MPMD) 范 式 。 最 后 ,我 们 可 以 
在 同一 个 处 理 器 ( 当 多 核 时 并 行 处 理 ) 或 者 同一 网 络 下 互 连 的 一 组 处 理 顺 上 运行 多 个 进 
程 。 我 们 也 可 以 编写 程序 来 使 用 若干 多 核 处 理 器 (在 这 种 情况 下 ， 同 时 使 用 MPI 和 
OpenMP 标准 ) 。 


2.3 进程 乙 间 的 全 局 通信 


通过 在 一 组 机 器 上 执行 一 个 MPI 程序 ,我 们 启动 一 组 进程 ,并 且 对 于 每 个 进程 ， 
都 有 本 地 计算 (与 通常 的 串 行 程序 执行 类 似 )， 同 时 还 执行 以 下 操作 。 
。 数据 传输 : 例如 ， 一 些 数据 通过 消息 传送 到 所 有 其 他 进程 。 
。 同步 屏障 : 导致 所 有 进程 在 继续 运行 之 前 都 需要 等 待 。 
。 全 局 计算 : 例如 ， 一 种 归 约 操作 (用 存储 在 每 个 进程 本 地 内 存 中 的 本 地 值 ) 计 
算 属于 所 有 进程 的 分 布 式 变 量 x 的 总 和 或 最 小 值 。 图 2-1 演示 了 归 约 累加 和 操 
作 。 全 局 计算 依赖 于 互 连 集群 机 器 的 底层 拓扑 。 


(+1234)=(+(+12)(+34)=(+37)=(10) 
10 E 
em : 7 
AUN ZN 
( + 1 2 3 4 ) 


图 2-1 全 局 归 约 计算 的 示例 : 计算 进程 变量 本 地 值 的 全 局 累加 和 。 在 这 里 演示 了 在 调 
用 归 约 原 语 时 执行 的 归 约 树 


( 十 


全 局 通信 和 原 语 由 属于 同一 个 通信 组 的 所 有 进程 执行 。 默 认 情 况 下 ，MPI 初始 化 
后 ， 所 有 进程 就 属于 同一 个 被 称 为 MPI COMM WORLD 的 通信 组 。 
2.3.1 四 个 基本 的 MPI 原 语 : 广播 、 收 集 、 归 约 和 全 交换 


MPI 广播 原 语 ( 即 MPI_Bcast) 用 来 从 根 进程 (通信 组 当前 调用 的 进程 ) 向 其 他 所 
有 (同一 个 通信 组 ) 的 进程 发 送 消息 。 相 反 ， 归 约 操作 将 变量 的 所 有 对 应 的 值 汇集 到 一 
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个 值 中 ， 并 将 其 返回 给 当前 调用 进程 。 当 将 不 同 的 个 性 化 信息 发 送 到 其 他 每 个 进程 中 
时 ,执行 了 在 MPI 中 被 称 为 MPI Scatter 的 散播 操作 。 





聚合 原 语 既 可 以 用 于 通信 ， 也 可 以 用 #2-1 全 局 计算 : 预定 义 的 MPI 归 约 
于 全 局 计算 : 收集 是 散播 操作 的 道 过 程 ， (可 交换 的 ) 二 元 运算 符 
这 个 过 程 中 根 进程 从 所 有 其 他 进程 接收 个 FELT = 
à MPI MAX 最 大 值 
性 化 消息 。 在 MPI 中 ，MPI_Reduce 可 Mid MTM 最 小 值 
以 通过 聚合 ( 归 约 ) 一 个 使 用 可 交换 二 元 运 MPI_SUM 求 和 
算 符 9 的 变量 来 执行 全 局 计算 操作 。 典 型 。 weT_eRon 
LAN 5 
的 例子 就 是 求 和 (MPI_SUM) 或 求 积 (MPI_ Cela RS 
PROD)“. # 2-1 列 出 了 用 于 归 约 原 语 的 MPI_LOR 逻辑 或 
二 元 运算 符 。 图 2-2 说 明了 这 四 个 基本 的 WEL ^ 按 位 或 
、 E s - MPI LXOR 逻辑 异 或 
MPI 原 语 。 最 后 需要 强调 的 是 ， 我 们 也 可 SEE PROP — 
以 使 用 一 种 多 对 多 通信 原 语 (MEI_ALL- MPI MAXLOC 最 大 值 和 相应 位 置 
toal1， 也 称 全 交换 )， 其 中 的 每 个 进程 向 其 MPI MINLOC 最 小 值 和 相应 位 置 
他 所 有 进程 发 送 个 性 化 的 信息 。 







一 对 多 


broadcast 


M: 信息 


个 性 化 一 对 多 


scatter 


SH QQ) @ 
reduce 
Q 


图 2-2 四 种 基本 的 集体 通信 原 语 : 广播 (一 对 多 )、 散 播 ( 个 性 化 广播 或 个 性 化 的 一 对 多 
通信 )、 收 集 ( 散 播 原 语 的 逆 过 程 或 个 性 化 的 多 对 一 通信 ) 和 归 约 (全 局 汇集 计算 ) 





日 ”一 个 不 可 交换 的 二 元 运算 符 的 例子 就 是 除法 ， 因 为 p/qzcq/p 
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2.3.2 阻塞 与 非 阻 塞 和 同步 与 异步 通信 


MPI 有 多 种 发 送 模式 ， 这 取决 于 数据 是 否 被 缓冲 ， 以 及 是 否 需 要 同步 。 首 先 ， 计 
我 们 从 send 和 receive 这 两 个 基本 通信 原 语 的 表示 开始 。 我 们 按 如 下 方式 描述 这 两 
个 原 语 的 语法 和 语义 。 
e send(&data,n,Pdest): 把 从 内 存 地 址 saata 开始 的 含有 mn 个 数据 的 数组 
发 送 到 进程 Pdest. 

e receive(&data, n, Psrc): 从 进程 Psrc Hl n RU. HK E TTE BE TE 
一 个 从 本 地 内 存 地 址 gdata 开始 的 数组 中 。 

现在 ， 让 我 们 通过 下 面 的 例子 来 看 发 生 了 什么 : 


Process P0 Boxes E 
a=442; ria 
i &a, 1, PO); 
send(&a, 1, P1); receive(ka ) 
a=0; cout << a << endl; 


阻塞 通信 ( 非 缓冲 ) 产 生 了 等 待 时 间 的 情况 ， 也 就 是 空 用 时 间 。 事 实 上 ， 发 送 进 程 
和 接收 进程 需要 相互 等 待 对方 ， 这 是 一 种 通常 称 为 “握手 ”"(hand-shaking) 的 通信 模式 。 
这 种 模式 允许 执行 同步 通信 。 图 2-3 说 明了 通过 “握手 ”完成 的 这 些 同步 通信 ， 并 指出 
了 空闲 时 间 。 





















发 送 进程 接收 进程 ”发 送 进程 接收 进程 ”发 送 进程 接收 进程 
消息 传递 消息 传递 消息 传递 
发 送 请 求 
等 待 ， 空 闲 时 间 (0 0 BGEWDR 
确认 通过 
确认 通过 
人 A | 数据 传送 
数据 传送 
时 间 时 间 时 间 
a) b) c) 


图 2-3 用 “握手 ”方式 的 阻塞 通信 : a) 发 送 进程 等 待 接收 进程 的 “确认 通过 ”指令 ， 从 而 引发 
等 待 情况 ; b) 试 图 最 小 化 空闲 时 间 ; c) 接 收 进 程 需 要 等 待 


下 面 的 C 程序 给 出 了 一 个 MPI 中 阻塞 通信 的 基本 例子 (使 用 MPI 的 OpenMPI 供 
应 商 实施 的 C RÈ): 


WW source code: MPIBlockingCommunication.cpp 


// filename: MPIBlockingCommunication.cpp 
#include <stdio.h> 

#include <stdlib.h> 

#include <mpi.h> 

#include <math.h> 
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int main(argc,argv) 
int argc; 
char *argvi[]; 
{ 
int myid, numprocs; 
int tag,source,destination, count; 
int buffer; 
MPI Status status; 


MPI Init(&argc,kargv); 
MPI Comm size(MPI COMM WORLD,&numprocs); 
MPI Comm rank(MPI COMM WORLD,&myid); 
tag-2312; /* any integer to tag messages */ 
source-0; 
destination-1; 
count-1; 
if(myid == source) { 

buffer=2015; 

MPI Send(&buffer,count,MPI INT,destination,tag 

,MPI, COMM, WORLD); 
printf ("processor $d received $d Wn", myid, 
buffer) 
) 
if(myid == destination) { 
MPI Recv(&buffer,count,MPI INT,source,tag, 
MPI COMM WORLD,&status); 
printf ("processor $d received %d \n",myid, 
buffer); 
} 
MPI_Finalize(); 
} 


显然 ， 对 于 阻塞 通信 ， 要 尽量 减少 总 的 空闲 时 间 。 接 下 来 我 们 将 看 到 如 何 使 用 负 
载 平 衡 技 术 来 实现 优化 ， 从 而 很 好 地 平衡 进程 之 间 的 局 部 计算 。 

接 下 来 ， 我们 介绍 语法 ， 并 描述 MPI 中 send? 原 语 的 参数 。 

© (EHI C 绑 定 的 语法 : 

#include <mpi.h> 


int MPI_Send(void *buf, int count, MPI_Datatype 
datatype, int dest, int tag, MPI_Comm comm) 


e 在 C 十 十 中 的 语法 (不 建议 使 用 。 因 为 自从 MPE2 之 后 它 没 有 被 定期 更 新 ， 我 们 
不 推荐 使 用 它 ) : 


#include <mpi.h> 
void Comm::Send(const void* buf, int count, const 
Datatype& datatype, int dest, int tag) const 


send 中 的 tag 参数 为 消息 指定 一 个 整 型 数据 ( 它 的 标签 )， 这 样 进 程 就 可 以 指定 
等 待 哪些 类 型 的 消息 。 标 签 在 实践 中 非常 有 用 ， 用 于 过 滤 通 信 操 作 ， 并 确保 一 些 情况 ， 
例如 ， 使 用 阻塞 通信 时 确保 发 送 /接收 的 消息 是 成 对 匹配 的 。 

表 2-2 总 结 了 MPI 中 的 C 语言 数据 类 型 。 





C ”可见 网 页 : https://www. open— mpi. org/doc/vl. 4/man3/MPI Send. 3. php, 
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表 2-2 使 用 C 语言 绑 定 的 MP 基本 数据 类 型 





MPI 数据 类 型 相应 的 C 语言 数据 类 型 
MPI_CHAR signed char 
MPI SHORT signed short int 
MPI INT signed int 
MPI LONG signed long int 
MPI UNSIGNED CHAR unsigned char 
MPI UNSIGNED, SHORT unsigned short int 
MPI UNSIGNED unsigned int 
MPI, UNSIGNED LONG unsigned long int 
MPI FLOAT float 
MPI, DOUBLE double 
MPI, LONG. DOUBLE long double 
MPI, BYTE 
MPI PACKED 


2.3.3 阻塞 通信 产生 的 死 锁 


使 用 阻塞 通信 会 正确 地 匹配 “发 送 语句 "和 “接收 语句 "， 但 不 幸 的 是 也 会 产生 死 锁 9 。 
让 我 们 思考 下 面 这 个 简单 示例 ， 以 了 解 是否 存 在 死 锁 的 情况 : 


进程 P0 进程 P1 

send(&a, 1, Pi); send(&£a, 1, PO); 

receive(&b, 1, P1); receive(&b, 1, PO); 

进程 P0 发 送 一 个 消息 ， 然 后 等 待 接收 进程 Pl 的 “同意 发 送 ” 指 令 , 但 Pl 的 发 送 
语句 也 在 等 待 P0 的 “同意 发 送 ? 指 令 。 这 是 一 个 典型 的 死 锁 情 况 。 在 这 个 简单 示例 中 ， 
我 们 在 使 用 阻塞 通信 和 原 语 时 指出 了 死 锁 问 题 。 然 而 在 实践 中 ， 跟 踪 它 们 并 不 容易 ， 因 
为 进程 程序 会 有 不 同 的 执行 路 径 。 

实际 上 ,在 MPI 中 ， 每 个 发 送 /接收 操作 涉及 一 组 通信 ， 并 且 有 一 个 标签 属性 (一 
个 整 型 数据 )。 从 算法 的 角度 来 看 ， 阻 塞 通 信 是 确保 程序 一 致 性 (或 语义 ) 的 一 个 非常 理 
想 的 特性 (例如 ， 可 以 避免 让 消息 以 错误 的 顺序 到 达 )， 但 是 阻塞 通信 会 给 检测 死 锁 带 
来 困难 。 

为 了 避免 (或 者 至 少 最 小 化 ) 这 些 死 锁 的 情况 ,我 们 可 以 预先 给 每 个 进程 分 配 一 个 
专用 的 内 存 空间 ， 用 于 缓冲 数据 :; 数据 缓冲 区 (Data Buffer，DB)。 然 后 ， 分 两 步 发 送 
数据 : 

。 首先， 发 送 进程 在 数据 缓冲 区 发 送 消息 。 

。 其 次 ， 接 收 进程 在 地 址 &aaca 指向 的 本 地 内 存 区 域 上 复制 数据 缓冲 区 。 

这 种 缓冲 通信 可 以 通过 硬件 机 制 或 适当 的 软件 来 实现 。 但 是 ， 当 数据 缓冲 区 变 满 





O 在 这 种 情况 下 ， 要 么 在 外 部 发 出 超时 信和 号 以 杀 死 所 有 进程 ， 要 么 我 们 需要 通过 使 用 Shell 命令 行 指令 来 手 
动 杀 死 那些 使 用 它们 进程 识别 号 的 进程 。 
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(引发 “缓冲 区 溢出 ?异常 ) 时 ， 仍 然 存在 潜在 的 死 锁 情 况 。 由 于 阻塞 的 receive 原 语 ， 
即使 我 们 正确 地 管理 了 send 原 语 并 且 使 用 缓冲 通信 ， 仍 然 会 存在 死 锁 的 情况 。 这 种 情 
况 如 下 所 示 : 

进程 P0 进程 P1 


receive(&a, 1, P1); receive(&a, 1, PO); 
send(&b, 1, Pi); send(&b, 1, PO); 


每 个 进程 在 发 送 消 息 之 前 需要 等 待 一 个 指令 ! 同样 ， 这 是 一 个 死 锁 状态 ! BZ, 
当 我 们 考虑 像 广播 这 样 的 全 局 通信 以 确保 消息 的 正确 到 达 顺 序 的 情况 时 ， 阻 塞 通信 是 
非常 有 用 的 ， 但 在 实现 这 些 通信 算法 时 ， 必 须 注意 潜在 的 死 锁 。 

避免 死 锁 的 一 个 解决 方案 是 考虑 让 send 和 receive 原 语 成 为 非 阻 塞 的 。 这 些 非 
阻塞 通信 程序 (无 缓冲 ) 是 由 MPI 中 的 Isend 和 Ireceive 表示 ， 即 异步 通信 。 在 这 
种 情况 下 ， 发 送 进程 发 布 一 条 “发 送 授权 请 求 ”( 挂 起 的 消息 ) 的 消息 ， 并 继续 其 程序 的 
执行 。 当 接收 进程 发 布 一 个 “同意 发 送 ? 许 可 指令 时 ， 数 据 传 输 就 启动 了 。 所 有 这 些 机 
制 都 是 通过 操作 系统 的 信号 进行 内 部 管理 的 。 当 数据 传输 完成 时 ， 检 查 状 态 并 指示 进 
程 是 否 可 以 安全 地 进行 读 / 写 数据 。 下 面 的 C 程序 介绍 了 这 样 一 个 非 阻 塞 通信 ， 使 用 的 
是 与 C 绑 定 的 OpenMPI。 需 要 注意 的 是 原 语 MPI_Wait (&request, &status) $$ 
数据 传输 完成 (或 中 断 ) 后 ， 使 用 一 个 称 为 status 的 状态 变量 来 指示 数据 传输 是 否 已 
经 成 功 。 


WWW source code: MPINonBlockingCommunication.cpp | 


// filename: MPINonBlockingCommunication.cpp 
#include <stdio.h> 

#include <stdlib.h> 

#include <mpi.h> 

#include <math.h> 





int main(argc,argv) 
int argc; 
char ‘*argv[]; 
{ 
int myid, numprocs; 
int tag,source,destination,count; 
int buffer; 
MPI_Status status; 
MPI Request request; 


MPI_Init (&arge ,&argv); 

MPI Comm size(MPI COMM WORLD,&numprocs); 
MPI Comm rank(MPI, COMM WORLD,&myid); 
tag-2312; 

source-0; 

destination-1; 


count-1; 
request-MPI REQUEST NULL; 
if(myid == source) { 


buffer=2015; 
MPI_Isend(&buffer,count,MPI_INT,destination, 
tag,MPI COMM WORLD ,&request); 
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if (myid == destination) { 
MPI Irecv(&buffer,count,MPI INT,source,tag, 
MPI COMM WORLD,&request); 

} 
MPI Wait(&request,&status); 
if(myid == source) { 

printf ("processor $d sent %#d\n",myid, buffer); 
} 


if(myid == destination) { 
printf ("processor $d received $d\n",myid, 
buffer); 


} 
MPI_Finalize(); 
} 


我 们 总 结 了 C 绑 定 中 的 非 阻 塞 原 语 Isend 和 rrecv 的 调用 语法 : 


int MPI_Isend( void *buf, int count, MPI_Datatype 
datatype, int dest, int tag, MPI_Comm comm, 
MPI_Request *req ) 


int MPI Irecv( void *buf, int count, MPI_Datatype 
datatype, int src, int tag, MPI Comm comm, 
MPI Request *req ) 


MPI Request 结构 是 程序 中 经 常 使 用 的 : 当 * req 操作 完成 时 返回 * flag= 1. 
否则 返回 0。 


int MPI Test( MPI Request *req, int *flag, 
MPI Status *status ) 


FE MPI Wait 一 直 等 到 * rep 所 执行 的 操作 完成 。 
int MPI Wait( MPI Request *req, MPI Status *status ) 


_ 表 2-3 总 结 了 各 种 通信 协议 (阻塞 / 非 阻 塞 发 送 操 作 与 对 应 阻塞 / 非 阻塞 接收 操作 )。 


表 2-3 不 同 发 送 /接收 操作 协议 的 对 比 






非 阻塞 操作 
send 初 始 化 DMA( 直 接 内 存 访问 ) 之 后 ， 

完成 send 操作 ，DMA 可 以 将 数据 转移 到 数 

据 缓冲 区 。 该 操作 在 函数 返回 后 不 一 定 完成 






send 操作 在 数据 拷贝 到 数据 缓冲 区 之 后 


缓冲 完成 






阻塞 sena 操作 直到 磁 到 一 个 相应 的 re- 
ceive 操作 


配对 send 和 receive 操作 的 语义 


程序 表 目 前 重点 强调 了 八 个 通用 MPI 函数 (在 众多 的 MPI 指令 集中 ) : 











程序 设计 者 除了 需要 检查 操作 状态 ， 还 必 
须 明确 指出 语义 


MPI Init 初始 化 MPI JE 
MPI_Finalize 终止 MPI 














MPI_Comm_size 返回 进程 数量 
MPI_Comm_rank 当前 正在 运行 的 进程 的 标识 号 
发 送 消息 (阻塞 ) 
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(XE) 
MPI Recv 接收 消息 (阻塞 ) 





MPI Isend 发 送 消 息 ( 非 阻 塞 ) 
MPI_TIrecv 接收 消息 ( 非 阻 塞 ) 








所 有 这 些 函 数 成 功 完成 时 返回 MPI Success. 否则 会 根据 出 现 的 问题 返回 一 段 
错误 代码 。 数 据 类 型 和 常量 都 有 前 级 MPI_( 请 读者 在 头 文件 mpi. h 中 查看 更 多 信息 )。 


2.3.4 并 发 性 : 局 部 计算 可 以 与 通信 重重 执行 


人 们 通常 认为 ， 处 理 器 (或 处 理 单元 ，PE) 可 以 在 同一 时 间 运 行 好 几 个 任务 : 例 
如 ,一 个 典型 的 场景 是 在 进行 非 阻塞 通信 操作 (MPI_IRecv 和 MPI_ISend) 的 同时 ， 
做 一 些 局 部 的 计算 。 因 此 ;我 们 要 求 这 三 个 操作 互相 不 干涉 对 方 。 所 以 在 一 个 阶段 中 ， 
我 们 不 能 把 一 个 运算 的 结果 发 送出 去 ， 并 且 我 们 不 能 把 同一 时 刻 所 接收 的 内 容 发 送 ( 也 
就 是 转发 ) 出 去 。 在 并 行 算法 中 ,我 们 用 双 竖 线 | 表示 这 些 并 发 操作 


IRecv || ISend || Local. Computation 


2.3.5 单 向 与 双向 通信 


我 们 按 下 面 的 方式 区 分 单 向 通信 和 双向 通信 : 单 向 通信 和 是 在 通信 信道 中 消息 仅 能 
在 单个 方向 上 进行 通信 ,也 就 是 说 ， 我 们 要 么 发 送 一 个 消息 ， 要 么 接收 一 个 消息 (MPI 
_Send/MPI_Recv)， 但 不 能 同时 进行 ; 在 双向 通信 中 ， 我们 可 以 进行 双向 通信 ， 在 
MPI 中 ， 这 可 以 通过 调用 函数 MPI_Sendrecv 吕 来 完成 。 


2.3.6 MPI 中 的 全 局 计算 : 归 约 和 并 行 前 缀 (扫描 ) 


F=1 P=1 
在 MPI 中 ， 可 以 执行 类 似 累 加 和 V = X o (或 者 乘积 计算 V = [| vw ) 的 全 局 计 


i=0 i==0 
jk. HB ov, 是 存储 在 进程 P; 内 存 中 的 局 部 变量 。 这 个 全 局 计算 结果 V 可 以 从 调用 了 
这 个 归 约 (reduce) 原 语 的 进程 的 本 地 内 存 中 获得 ， 这 个 进程 就 是 当前 调用 进程 ， 也 
称 为 根 进 程 。 下 面 通过 OpenMPI 的 C 绑 定 来 描述 归 约 号 原 语 的 使 用 : 

#include <mpi.h> 


int MPI_Reduce ( // Reduce routine 
void* sendBuffer, // Address of local val 
void* recvBuffer, // Place to receive into 
int count, // No. of elements 
MPI_Datatype datatype, // Type of each element 
MPI_OP op, // MPI operator 
int root, // Process to get result 
MPI_Comm comm // MPI communicator 
Vi 





© https; //www. open-mpi. org/doc/vl.8/man3/MPI_Sendreev. 3. php. 


& 可见 网 页 https://www. open—mpi. org/doc/vl. 5/man3/MPI Reduce. 3. php, 
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归 约 操作 是 预定 义 的 ， 可 以 从 下 表 的 关键 词 中 选择 使 用 ( 同 见 表 2-1) 。 


MPI MAX 


MPI MIN 











MPI, SUM 








MPI_PROD 





MPI, LAND 





MPI. BAND 


ina 
at 
fet HIR 


fe MPI 中 ， 也 可 以 给 归 约 操作 建立 数据 类 型 并 定义 关联 和 交换 二 元 运算 符 。 

第 二 种 全 局 计算 是 并 行 前 缓 ， 也 称 为 扫描 。 一 个 扫描 (scan) 操 作 计 算 存 储 在 进程 
中 的 本 地 数据 的 所 有 部 分 归 约 操作 。 

扫描 操作 在 MPI 中 的 语法 如 下 : 


int MPI_Scan( void *sendbuf,void *recvbuf,int count, 
MPI_Datatype datatype,MPI_Op op,MPI_Comm comm ) 


调用 此 函数 可 以 通过 内 存 地 址 recvbuf 中 可 获取 的 结果 对 每 个 进程 中 位 于 
sendbuf 的 数据 进行 前 缓 归 约 操作 。 图 2-4 说 明了 归 约 和 扫描 这 两 个 全 局 计算 原 语 之 
间 的 区 别 。 


MPI_Scan( vals, cumsum, 4, MPI_INT, MPI_SUM, 
MPI COMM WORLD ) 


加 
alo] as Y 6 
a. - Lx 


| | % | « | 
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图 2-4 归 约 操作 和 并 行 前 缀 (或 扫描 ) 操 作 示意 图 


我 们 使 用 C 绑 定 来 描述 归 约 和 扫描 的 语法 ， 因 为 C 十 十 绑 定 自从 MPI-2 版 本 之 后 
不 再 进行 更 新 了 。 在 实践 中 ， 我 们 经 常用 现代 的 面向 对 象 的 C 十 十 语言 编程 并 通过 
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C 接口 调用 MPIRA., BIHZ— TF. Cibi l E C 十 十 加 的 前 驱 ，C 语言 不 是 一 个 面向 
对 象 的 语言 ， 而 处 理 的 时 候 用 的 是 关键 字 struct 定义 的 数据 结构 。 
这 些 全 局 计算 通常 在 内 部 通过 使 用 互联 网 络 的 底层 拓扑 的 生成 树 来 实现 。 


2.3.7 采用 通信 器 定义 通信 组 


在 MPI 中 ,通信 器 能 够 将 进程 分 成 不 同 的 通信 组 。 每 个 进程 都 包括 在 一 个 通信 组 
中 ， 并 由 其 通信 组 内 部 的 进程 标识 号 索引 。 默 认 情 况 下 ，MPI_COMM_WORLD 包括 所 有 
P 个 标识 号 为 从 0 到 P—1 的 整 型 数字 的 进程 。 为 了 获取 通信 组 内 部 进程 数量 或 者 通信 
组 内 部 的 进程 标识 号 ， 我们 使 用 以 下 MPI 原 语 : int MPI Comm size (MPI_Comm 
comm, int * size) fll int MPI Comm rank (MPI Comm comm, int * size). 


例如 ， 我 们 通过 删除 第 一 个 进程 来 创建 一 个 新 的 通信 域 ， 过 程 如 下 : 


// filename: MPICommunicatorRemoveFirstProcess.cpp 
#include <mpi.h> 


int main(int argc, char *argv[]) 
{ 
MPI_Comm comm_world, comm_worker; 
MPI_Group group_world, group_worker; 
comm world = MPI COMM WORLD; 


MPI Comm group(comm world, &group world); 
MPI Group excl(group world, 1, 0, &group worker) 


7 


/* process 0 is removed from the communication 
group */ 


MPI_Comm_create(comm_world, group_worker, & 
comm worker); 


} 
在 第 二 段 代码 中 ， 我 们 说 明 如 何 使 用 通信 域 : 





| WWW source code: MPICommunicatorSplitProcess.cpp 





// filename: MPICommunicatorSplitProcess.cpp 
#include <mpi.h> 

#include <stdio.h> 

#define NPROCS 8 


int main(int argc, char *argv[]) 
{ 
int *ranks1[4]2(0,1,2,3), sanke (4]={4,5,6,7}3 


MPI_Group orig_group, new_group; 
MPI_Comm new_comm 
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MPI_Init(&arge, &argv); 
MPI Comm rank(MPI COMM WORLD, &rank) ; 
sendbuf = rank; 


// Retrieve the intial group 
MPI Comm group(MPI COMM WORLD, &orig group); 


if (rank « NPROCS/2) 
MPI Group incl(orig group, NPROCS/2, ranksl, 
&new group); 
else 
MPI Group incl(orig group, NPROCS/2, ranks2, & 


new group); 


// create new communicator 
MPI Comm create(MPI COMM WORLD, new group, &new comm 


3 


// global computation primitive 
MPI Allreduce(&sendbuf, &recvbuf, 1, MPI INT, 
MPI SUM, new comm); 
MPI Group rank (new group, &new rank); 
printf("rank- %d newrank- $d recvbuf= %d\n", rank, 
newrank, recvbuf); 


MPI Finalize(); 
} 


MPI_Comm_create 是 一 个 汇集 操作 ， 之 前 通信 组 的 所 有 进程 都 需要 调用 它 ， 甚 
至 还 包括 那些 不 属于 新 的 通信 组 的 进程 。 


2.4 同步 屏障 : 进程 的 交汇 点 


在 粗 粒 度 并 行 模式 中 ， 进 程 之 间 独 立 执行 大 量 的 计算 块 。 然 后 它们 在 同步 屏障 的 地 
方 互 相等 待 ( 见 图 2-5, MPI 的 MPI_Barrier)， 执 行 发 送 /接收 消息 ， 而 后 继续 它们 的 程 
序 执行 。 


| 











图 2-5 同步 屏障 的 概念 说 明 : 在 继续 执行 程序 之 前 ， 进 程 在 同步 屏障 的 地 方 要 互相 等 待 


2.4.1 MPI 中 的 一 个 同步 示例 : 测量 运行 时 间 


例如 ， 让 我 们 说 明 一 种 方法 来 测量 具有 同步 屏障 的 MPI 程序 的 并 行 时 间 。 我 们 在 
MPI 中 使 用 程序 MPI_Wt ime 测量 时 间 。 考 虑 这 种 主 从 代码 : 
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WWW source code: MPISynchronizeTime.cpp 


// filename: MPISynchronizeTime.cpp 
double start, end; 


MPI Init(&argc, &argv); 
MPI Comm rank(MPI COMM WORLD, k&rank); 


MPI Barrier(MPI COMM WORLD); /* IMPORTANT */ 
start = MPI_Wtime(); 


/* some local computations here */ 
LocalComputation(): 


MPI Barrier(MPI COMM WORLD); /* IMPORTANT */ 
end - MPI Wtime(); /* measure the worst-case time of 
a process */ 


MPI Finalize(); 


if (rank == 0) 
( /* use time on master node */ 
cout«« end-start ««endl; // here we use C++ syntax 
} 


我 们 也 可 以 使 用 一 个 MPI_Reduce() 程 序 来 计算 所 有 进程 时 间 的 最 大 值 、 最 小 值 
以 及 总 和 。 但 这 最 终 需 要 添加 一 个 额外 的 步骤 来 执行 带 有 归 约 操作 的 全 局 运算 。 


2.4.2 整体 同步 并 行 计算 模型 


整体 同步 并 行 计算 模型 (Bulk Synchronous Parallel，BSP) 是 高 级 并 行 编程 模型 之 
一 。 这 个 抽象 模型 是 由 Leslie G. Valiant( 图 灵 奖 ，2010) 构 思 的 ， 并 利用 组 成 "超级 步 
又 ?的 三 个 基本 步骤 促进 并 行 算 法 的 设计 。 

C1) 并 发 计算 步骤 : 进程 进行 局 部 异步 计算 ， 并 且 这 些 局 部 计算 可 以 与 通信 重 秋 。 

(2) 通 信步 又 : 进程 之 间 相 互 交 换 数 据 。 

《3) 同 步 屏 障 步骤 : 当 进程 到 达 同 步 屏 障 时 ， 它 等 待 所 有 其 他 进程 到 达 这 个 屏障 ， 
然后 再 进行 另 一 组 超级 步骤 。 

基于 BSP 模型 的 一 个 并 行 算 法 是 一 系列 超级 步 又。 有 一 个 叫 作 BSPonMPIS 的 软 
件 库 ， 人 允许 利用 MPI 很 容易 地 使 用 这 种 编程 模型 。 


2.5 开始 使 用 MPI: 使 用 OpenMPI 


我 们 通过 使 用 C、C 十 十 或 者 Boost 绑 定 描述 了 几 种 使 用 MPI 标准 的 OpenMPI 实 





© hrtp://bsponmpi. sourceforge. net/ , 
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现 的 方法 。 也 涉及 了 方便 的 Python HES. 


2.5.1 用 MPI C++ 45 “Hello World” 程 序 


传统 的 “Hello 程序 ”通过 显示 一 个 简单 的 信息 展示 了 一 个 MPI 程序 最 小 结构 。 


WWW source code: MPIHelloWorld.cpp 


// filename: MPIHelloWorld.cpp 

# include <iostream> 

using namespace std; 

# include "mpi.h" 

int main ( int argc, char *argv[] ) 


( 





int id, p, name len; 
char processor name[MPI MAX PROCESSOR NAME]; 
// Initialize MPI. 
MPI::Init ( argc, argv ); 
// Get the number of processes. 
p = MPI::COMM WORLD.Get size ( ); 
// Get the individual process ID. 
id - MPI::COMM WORLD.Get rank ( ); 
MPI Get processor name(processor name, &name len); 
// Print off a hello world message 
cout << " Processor " << processor namec«c«" ID="<< 
id << " Welcome to MPI!’\n"; 
// Terminate MPI. 
MPI::Finalize ( ); 
return 0; 
} 


_ 为 了 编译 这 段 C 十 十 源码 ， 我 们 在 终端 输入 : 


mpic++ welcomeMPI.cpp -o welcomeMPI 


Mo 选项 没有 设 定 时 ， 编 译 器 将 会 在 一 个 名 为 aout 的 默认 文件 中 写 下 字 节 代 
一 旦 经 过 编译 ， 我 们 执行 这 个 程序 ， 这 里 是 在 名 为 machinempi 的 机 器 上 : 


>$ mpirun -np 4 welcomeMPI 

Processor machinempi ID=3 Welcome MPI!’ 
Processor machinempi  ID-0 Welcome MPI!’ 
Processor machinempi  ID-1 Welcome MPI!’ 
Processor machinempi  ID-2 Welcome MPI!' 


需要 注意 的 是 ， 控 制 台中 的 消息 是 按照 cout 命令 执行 时 间 的 顺序 显示 的 。 因 此 ， 


如 果 我 们 再 次 启动 这 个 程序 ， 控 制 台 消息 的 顺序 可 能 会 不 同 。 因 此 需要 强调 的 是 ， 当 
我 们 调用 mpirun 命令 时 ,创建 了 PP 个 进程 ， 这些 进程 都 执行 相同 的 编译 代码 。 每 个 
进程 可 以 通过 进程 标识 号 识别 自身 来 获取 程序 的 不 同 分 支 。 


我 们 可 以 用 两 台 机 器 来 运行 这 个 程序 ， 如 下 所 示 : 


©  http;//mpi4py. scipy. org/docs/usrman/ 。 
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>$ mpirun -np 5 -host machineMPI1,machineMPI2 welcomeMPI 
Processor machineMPI2  ID-1 Welcome MPI!’ 
Processor machineMPI2  ID-3 Welcome MPI!’ 
Processor machineMPI1  ID-0 Welcome MPI!’ 
Processor machineMPIl1  ID-2 Welcome MPI!’ 
Processor machineMPI]  ID-4 Welcome MPI!’ 


在 OpenMPI 中 ，mpizun 执行 命令 是 orterun 命令 的 一 个 符号 链接 。 我 们 可 以 
列 出 MPI 中 不 同 的 库 ， 如 下 所 示 : 


>mpic++ --showme:libs 
mpi cxx mpi open-rte open-pal dl nsl util m dl 


并 且 我 们 可 以 添加 一 个 新 的 库 ， 如 下 所 示 : 

export LIBS=${LIBS}:/usr/local/boost-1.39.0/include/boost-1_39 
然后 在 shell 中 编译 下 面 的 命令 行 : 

mpic++ -c t.cpp -I$LIBS 


一 般 来 说 ， 最 好 通过 编辑 .bashrc 来 设置 shell 配置 文件 。 完 成 了 编辑 之 后 ， 需 
要 通过 下 面 这 个 载 人 shell 配置 的 命令 来 再 读 一 次 配置 文件 : 

source ~/.bashre 

你 现在 可 以 同时 使 用 大 量 的 机 器 。 但 请 记 住 ， 在 使 用 大 量 资 源 时 ， 必 须要 有 好 的 
资源 使 用 习惯 : 每 个 人 都 应 该 公平 地 使 用 共享 资源 ! 

在 附录 B 中 ,我 们 描述 了 SLURM 任务 调度 程序 ， 用 来 启动 机 器 集群 的 MPI 工 作 。 


2.5.2 用 C 绑 定 进 行 MPI 编程 
下 面 的 例 程 描述 了 一 种 定义 主 从 程序 的 方法 : 


WWW source code: MPTCBindingExample.c 


/* filename: MPICBindingExample.c */ 
int main (int argc, char **argv) 


{ 





int myrank, size; 

MPI Init (&argc, &argv); 

MPI Comm rank (MPI COMM WORLD, &myrank); 
MPI Comm size( MPI COMM WORLD, &size ); 


if (!myrank) 
master (); 
else 
slave (); 
MPI Finalize (); 
return (1); 
} 


void master () 
{printf("I am the master program\n") ;} 


void slave() 
{printf("I am the slave program\n") ;} 
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请 注意 ， 这 里 采用 的 MPI 跟 我 们 第 一 个 “Hello World" 程 序 是 完全 不 同 的 。 事 实 
上 ， 这 里 我 们 用 的 是 MPI 的 C 绑 定 。C 绑 定 是 MPI 最 常用 的 绑 定 ， 也 经 常 更 新 。 它 
提供 MPI 标准 的 所 有 功能 。 不 再 支持 C 十 十 绑 定 ， 并 且 其 提供 较 少 的 功能 。 因 此 ,我 
们 推荐 使 用 C 绑 定 ， 即 使 在 C 十 十 程序 中 (采用 在 C 十 十 面向 对 象 的 程序 中 的 MPI 函数 的 
C 调用 方式 )。 这 就 解释 了 为 什么 在 我 们 的 代码 中 会 采用 C 语言 调用 方式 ， 并 用 cout 将 
信息 打印 到 控制 台 ! 


2.5.3 通过 C++ Boost 使 用 MPI 


Boost? 是 一 个 C 十 十 库 ， 它 对 矩阵 和 图 像 等 的 处 理 有 很 大 的 帮助 。 有 趣 的 是 ， 这 
个 库 还 提供 了 自己 的 方式 去 使 用 MPI 程序。 这 里 是 一 个 小 型 的 Boost-MPI 程序 ， 用 来 
展示 函数 库 的 用 例 : 





WWW source code: MPIBoostBindingExample.cpp | 





// filename: MPIBoostBindingExample.cpp 


#include «boost/mpi/environment.hpp- 
#include <boost/mpi/communicator.hpp> 


#include <iostream> 
namespace mpi = boost::mpi; 


int main() 


{ 
mpi::environment env; 
mpi::communicator world; 
std::cout << "I am process " << world.rank() << " 
on " << world.size() 
«« "," €2 std::endl; 
return 0; 
} 


如 果 使 用 UNIX 系统 ， 可 以 按照 以 下 方式 进行 编译 : 


/usr/local/openmpi—1.8.3/bin/mpicH- —I1/usr/local/boost— 1.56.0/include/ 
—L/usr/local/boost—1.56.0/lib/ —Iboost mpi —Iboost_serialization myprogram.cpp 
—o myprogram 


2.6 通过 OpenMP 使 用 MPI 


OpenMPS 是 另 一 种 为 基于 共享 内 存 的 并 行 编程 提供 的 应 用 编程 接口 。OpenMP 是 一 
个 跨 平台 标准 ， 提 供 了 C、C 十 十 和 Fortran 这 些 必要 的 语言 绑 定 。 当 人 们 想 使 用 多 核 处 
理 器 时 ， 通常 使 用 OpenMP。 下 面 是 一 个 “Hello World" f& FF. 使 用 了 MPI 和 OpenMP 
的 API: 





© http://www. boost. org/。 
© http;//openmp. org/wp/. 
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WW source code: MPIOpenMPExample.cpp 


// filename: MPIOpenMPExample.cpp 

#include <mpi.h> 

#include <omp.h> 

#include <stdio.h> 

int main (int nargs, char** args) 

{ 

int rank, nprocs, thread_id, nthreads; 

int name_len; 

char processor name[MPI MAX PROCESSOR NAME]; 


MPI Init (&nargs, &args); 

MPI Comm size (MPI COMM WORLD, &nprocs); 

MPI Comm rank (MPI COMM WORLD, krank); 

MPI Get processor name (processor name, &name len); 


*pragma omp parallel private(thread id, nthreads) 

( 

thread id - omp get thread num (); 

nthreads - omp get num threads (); 

printf("Thread number $d (on $d) for the MPI process 
number $d (on $d) [%s]\n", 

thread_id, nthreads, rank, nprocs,processor_name) ; 

} 

MPI_Finalize (); 

return 0; 

} 


我 们 使 用 mpic 十 十 编译 器 的 - fopenmp 选项 ， 如 下 所 示 : 


mpic++ -fopenmp testmpiopenmp.cpp -o testmp.exe 


然后 我 们 执行 这 个 程序 ， 执 行 下 面 的 命令 行 : 


mpirun -np 2 -host royce,simca testmp.exe 


{royce ~]$ mpirun -np 2 -host royce,simca dmp.exe 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 
Thread number (on 8) for the MPI process number 


(on 2) [simca.polytechnique.fr] 
(on 2) [simca.polytechnique.fr] 
(on 2) [simca.polytechnique.fr] 
(on 2) [simca.polytechnique.fr] 
(on 2) [simca.polytechnique. fr] 
(on 2) [simca.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
{on 2) [royce.polytechnique.fr] 
(on 2) [royce.polytechnique.fr] 
(on 2) [simca.polytechnique.fr] 
(on 2) [simca.polytechnique.fr] 


可 以 看 出 ， 这 两 台 主 机 每 台 有 8 个 核 。 我 们 观察 到 控制 台 上 输出 的 打印 顺序 取决 
于 许多 系统 因素 。 再 运行 一 次 时 ， 可 能 会 产生 不 同 的 到 达 顺 序 。 不 需 明确 地 列 出 主机 
名 称 ， 我 们 也 可 以 替代 地 使 用 一 个 资源 调度 程序 ， 比 如 SLURMS ， 它 将 自动 分 配 集 
群 所 有 必要 的 资源 给 MPI 程序 ( 见 附录 BD, 


Oto t to -24» UT iO -uwéeunmpco 
FPROOOCOCOORPRPRPREE 





C https: //computing. llnl. gov/linux/slurm/, 
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用 Python 绑 定 进行 MPI 编程 


Python? 作为 一 种 快速 原型 语言 在 近 十 年 来 广 受 欢 迎 。Python 绑 定 可 从 以 下 网 址 
获得 : http://mpi4py. scipy. org/docs/usrman/ , 


WWW source code: MPIHel loWorld.py 


#!/usr/bin/env python 





MPI Hello World example 

from mpi4py import MPI 

import sys 

size = MPI.COMM WORLD.Get size() 
rank = MPI.COMM WORLD.Get rank() 
name - MPI.Get processor name() 

sys.stdout.write( 


"Hello, World! I am process $d of $d on $*s.*n" 
$ (rank, size, name)) 


# mpirun -np 5 python26 hw.py 


2.7 MPI 中 的 主要 原 语 


我 们 回顾 主要 的 汇集 通信 原 语 ， 这 些 原 语 是 运行 在 通信 域 ( 机 器 组 ) 上 的 全 局 操作 : 

e 广播 (一 对 多 ) 和 归 约 (多 对 一 ， 这 可 以 解释 为 广播 原 语 的 反 向 操作 )。 

。 散播 或 者 个 性 化 广播 ， 向 所 有 进程 发 送 不 同 的 消息 。 

e 聚集 或 者 多 对 一 ， 将 所 有 进程 的 单个 消息 收集 到 当前 正在 调用 的 进程 (散播 原 语 
的 逆 操 作 ) 。 

e 全 局 计算 ， 比 如 归 约 和 扫描 (也 称 为 并 行 前 绥 ) 。 

。 全 通信 ， 多 对 多 ， 也 称 为 全 交换 (给 所 有 进程 的 个 性 化 消息 )。 

e 其 他 。 


2.7.1 广播、 散播、 收集 、 归 约 和 全 归 约 的 MPI 语法 


。 广播 : MPI Bcast? 


int MPI Bcast(void *buffer, int count, 
MPI Datatype datatype, 
int root, MPI Comm comm) 


© https://www. python. org/ 。 
© https://www. open-mpi. org/doc/vl. 5/man3/MPI Bcast. 3. php. 
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a) 


c) 


e) 





e 散播 : MPI_Scatter® 
int MPI_Scatter(void *sendbuf, int sendcount, MPI Datatype 


sendtype, void *recvbuf, int recvcount, 
MPI_Datatype recvtype, int root, MPI_Comm comm) 


e 收集 : MPI_Gather® 
int MPI_Gather(void *sendbuf, int sendcount, MPI_Datatype 


sendtype, void *recvbuf, int recvcount, 
MPI_Datatype recvtype, int root, MPI_Comm comm) 


e ISH: MPI Reduce? 


int MPI_Reduce(void *sendbuf, void *recvbuf, int count, 
MPI_Datatype datatype, MPI_Op op, int root, MPI_Comm comm) 


e 4/44: MPI Allréduce? 


int MPI Allreduce(void *sendbuf, void *recvbuf, int count, 
MPI Datatype datatype, MPI Op op, MPI Comm comm) 


图 2-6 解释 了 这 些 操作 。 


广播 一 对 多 
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图 2-6 MPI 中 的 标准 通信 原 语 以 及 全 局 计算 : a) 广 播 ; DAR; c) 收 集 ; DIA; e HZ 





C https://www. open-mpi. org/doc/vl. 5/man3/MPI Scatter. 3. php. 
© https://www. open-mpi. org/doc/v1. 5/man3/MPI Gather. 3. php, 
© https://www. open-mpi. org/doc/v1. 5/man3/MPI Reduce. 3. php. 
回 https://www. open-mpi. org/doc/vl. 5/man3/MPI Allreduce. 3. php, 
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2.7.2 其 余 混杂 的 MPIRE 

e 前 缓和 原 语 考虑 一 个 二 元 关联 运算 符 申 ， 比 如 十 、X、max 和 min， 计 算出 存 

储 在 进程 P, 上 的 和 ， 其 中 0<k<P 一 1: 
S, = M, M, Q:* OM, 

假定 这 PAHAM, e 存储 在 进程 P, 的 本 地 内 存 中 。 

e 多 对 多 归 约 是 根据 二 元 关联 运算 符 由 来 定义 的 ， 比 如 十 、 关 、max 和 min, Ml 
下 所 示 : 

M, = Ora Mar 

我 们 有 P^ 个 消息 M. HP O<r, k&P—1,. 并且 M,.; 存 储 在 进程 P, 的 本 地 


内 存 中 。 
e 转 置 是 一 个 个 性 化 多 对 多 原 语 ， 将 进程 中 的 消息 进行 转 置 ， 如 下 所 示 : 
Po Pi P; P, P, Pj P; P; 
My; Mi; Mz Ms; Mio Ms Mj; Ms; 
Moy; Mi; Mz My; - Mo Mj; Mj; M; 
Mo. Mi; Mza M; Mi; MI Mi; Mi 
Moo Mio Mio Ms Moo Moi Mo; Mo,s 


我 们 有 P! 个 消息 M a HA 卫 个 消息 M,., 存 储 在 进程 P, 中 ， 经 过 转 置 操作 
之 后 ， 得 到 存储 在 进程 P, PONAM, a Ep 0h 和 <P 一 1。 这 个 转 置 原 语 对 
” 转 置 在 网 格 或 环 面 拓扑 上 按 块 划分 的 矩阵 是 非常 有 用 的 。 
。 环 形 移 位 在 全 局 进行 消息 的 移动 ， 如 下 所 示 : 
M M M, M + M M, M, M 
P 个 消息 Mi 存储 在 本 地 ， 并 且 消 息 Mu-_ymodp 在 输出 时 存储 到 P, 


2.8 ”环形 拓扑 上 利用 MPI 进行 的 通信 


在 第 5 章 中 ,我 们 将 考虑 分 布 式 算法 解决 在 环形 和 环 面 拓扑 结构 中 的 矩阵 乘法 。 
这 里 ， 我 们 演示 了 一 个 简短 的 MPI 程序 ， 它 使 用 阻塞 通信 原 语 sena Al receive 来 
进行 广播 操作 : 


WWW source code: MPIRingBroadcast.cpp 


// filename: MPIRingBroadcast.cpp 
#include <mpi.h> 

int main(int argc, char *argv[]) { 
int rank, value, size; 

MPI_Status status; 

MPI_Init(&arge, &argv); 
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MPI. Comm rank(MPI, COMM WORLD, &rank) ; 
MPI Comm size(MPI COMM WORLD, &size); 


do { 

if (rank -- 0) (scanf("$d", &value ); 

/* Master node sends out the value */ 

MPI Send( &value, 1, MPI INT, rank + 1, O, 
MPI COMM WORLD); 

) 

else { 

/* Slave nodes block on receive the send on the 
value */ 


MPI Recv( &value, 1, MPI INT, rank = 1, 0, 
MPI, COMM WORLD, &status); 
if (rank « size - 1) { 


MPI Send( &value, 1, MPI INT, rank + 1, O, 
MPI COMM WORLD); 

} i 

printf ("process $d got d\n", rank, value); 
} while (value >= 0); 


MPI _Finalize(); 
return 0; 


2.9 MPI 程序 示例 及 其 加 速 比 分 析 


现在 让 我 们 根据 数据 传输 的 类 型 和 本 地 计算 介绍 不 同类 型 的 并 行 实 现 ， 并 研究 在 
几 个 问题 上 获得 的 加 速 比 情况 。 回 顾 一 下 加 速 比 可 以 按 如 下 定义 : 
t _ 1 个 进程 的 时 间 


t, 忆 个 进程 的 时 间 

我 们 的 目标 是 达到 O(P) 复 杂 度 的 线性 加 速 比 ， 其 中 PP 表示 进程 的 数量 (每 个 进程 
都 运行 在 各 自 的 处 理 器 上 )。 在 实践 中 ， 当 访问 数据 (通信 时 间 、 不 同 层次 的 高 速 缓 存 
存储 器 等 ) 时 ， 必 须要 注意 。 特 别 是 当 数据 量 太 大 ， 无 法 容纳 于 处 理 器 的 单个 本 地 内 存 
时 ， 我 们 需要 对 数据 进行 划分 (水 平 或 垂直 数据 划分 ) 。 

通常 ， 当 所 考虑 的 问题 是 可 分 解 的 时 候 ， 人 们 可 以 得 到 一 个 好 的 并 行 化 。 例 如 ， 
在 下 棋 时 ， 我 们 需要 在 给 定 棋盘 配置 的 情况 下 找到 最 优 的 移动 。 虽 然 棋盘 配置 组 合 的 
空间 非常 大 ， 但 终究 是 有 限 的 ， 是 O(C1) 复 杂 度 。 因 此 ， 在 理论 上 上， 人们 可 以 探索 所 有 
可 能 的 移动 : 在 每 一 步 ， 我 们 划分 的 空间 称 为 配置 空间 。 通 信 阶 段 用 于 将 问题 划分 为 
子 问题 并 且 整 合子 问题 的 解决 方案 (zeduce)。 因 此 ， 人 人们 期 望 获得 线性 加 速 比 。 在 
实践 中 ， 并 行 软 件 的 下 棋 性 能 取决 于 探索 配置 空间 的 搜索 树 的 深度 。 高 性 能 计算 在 设 
计 这 样 一 个 强大 的 下 棋 软件 上 起 了 作用 ， 并 且 战 胜 了 人 类 : 1997 年 ,在 国际 象棋 比赛 
中 Kasparov 输 给 了 使 用 12GLOPS 运算 速率 的 名 为 "Deeper Blue” 的 计算 机 。 如 今 ， 
们 正 专注 于 组 合 空间 更 大 的 围棋 游戏 。 围 棋 程序 性 能 的 进步 也 意味 着 许多 其 他 技术 领 
域 的 前 进 。 
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然而 ， 不 是 所 有 的 问题 都 可 以 很 容易 或 很 好 地 并 行 化。 例如 ， 使 用 不 规则 和 动态 
域 的 问题 ， 比 如 模拟 融雪 (需要 动态 和 局 部 重新 划分 域 等 )。 在 这 种 情况 下 ， 为 了 获得 
良好 的 加 速 比 ， 我 们 需要 明确 地 管理 进程 之 间 的 负载 平衡 。 在 进程 间 进 行动 态 地 划分 
数据 的 代价 很 大 ， 因 为 需要 进行 数据 传输 ， 而 整体 加 速 比 很 难 预 测 ， 因 为 它 依 赖 于 所 
考虑 的 输入 数据 集 上 问题 的 语义 等 。 

让 我 们 了 解 一 些 非 常 简单 的 说 明 性 MPI 程序 。 


2.9.1 MPI 中 的 矩阵 向 量 积 
第 5 章 将 集中 介绍 针对 有 向 环 和 环 面 拓扑 结构 的 分 布 式 算法 。 


WWW source code: MPIMatrixVectorMultiplication.cpp 


// filename: MPIMatrixVectorMultiplication.cpp 
#include <mpi.h> 


int main(int argc, char *argv[]) { 
int A[4][4], b[4], c[4], line[4], temp[4], 


local_value, myid; 
MPI Init(&argc, &argv); 


MPI Comm, rank(MPI, COMM WORLD, &myid); 


if (myid == 0) {/* initialization */ 
for (int i-0; i<4; i++) { 

bli] = 4 T i; 

for (int j=0; j<4; j++) 

AlAT CI] = $ * Dz 

} 
line [0]=A[0] [0]; 
line [1]=A[0][1]; 
Yine [2]=A[0] [2]; 
p line[3]=A[0] [3]; 

} 


if (myid == 0) { 
for (int i=l; i<4; i++) {// slaves perform 
multiplications 
temp [0]=A[il] [0]; 
temp[1] = A[li][1]; 
temp[2] = A[i] [2]; 
temp[3] = A[i][3]; 


MPI Send( temp, 4, MPI INT, i, i, 
MPI, COMM WORLD); 
MPI Send( b, 4, MPI INT, i, i, MPI, COMM WORLD) 
} 
} else { 
MPI_Recv( line, 4, MPI_INT, 0, myid, 
MPI_COMM_WORLD, MPI_STATUS_IGNORE) ; 
MPI Recv( b, 4, MPI INT, 0, myid, MPI_COMM_WORLD 
+ MPI STATUS IGNORE); 
) 


{// master node 
c[myid] = line(0] = b[0] + line[1] * b[1] + line 
[2] * BI2] + 1ine[3] * b[3]; 
Lge (myid t= 0) ( 
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MPI_Send(&c[myid], 1, MPI_INT, 0, myid, 
MPI_COMM_WORLD) ; 

) else | 

for (int i-1; i«4; i++) { 

MPI Recyv( ROLLI; 1, MPI IND, dy i, 
MPI COMM WORLD, MPI STATUS IGNORE); 

} 
} 
MPI_Finalize(); 
return 0; 


2.9.2 MPI 归 约 操作 示例 : 计算 数组 的 阶乘 和 最 小 值 
下 面 的 代码 演示 了 如 何 利用 汇集 归 约 操作 来 执行 在 MPI 中 的 全 局 计算 : 


WWW source code: MPIFactorialReduce.cpp 


// filename: MPIFactorialReduce.cpp 
#include <stdio.h> 
#include "mpi.h" 


int main(int argc, char *argv[]) í 
int i,me, nprocs; 
int number, globalFact=-1, localFact; 
MPI Init(&argc,&argv); 


MPI Comm size(MPI COMM WORLD,&nprocs); 
MPI Comm rank(MPI COMM WORLD,é&me); 


number=me+1; 

MPI Reduce(&number,&globalFact,1,MPI INT, 
MPI, PROD,0,MPI. COMM WORLD); 

if (me--0) printf("Computing the factorial in 
MPI: $d processus = %d\n",nprocs,globalFact); 


localFact=1; for(i=0;i<nprocs;i++) {localFact*= 
(L421) 9} 

if (me--0) printf ("Versus local factorial: %d\n" 
,localFact); 


MPI Finalize(); 
) 


现在 我 们 来 看 一 个 更 详细 的 例子 : 计算 存储 在 进程 的 本 地 内 存 中 的 一 组 数组 的 全 
局 最 小 值 : 


WW source code: MPIMinimumReduce.cpp 


// filename: MPIMinimumReduce.cpp 
#include <mpi.h> 
#include <stdio.h> 


#define N 1000 


int main(int argc, char** argv) { 
int rank, nprocs, n, i; 
const int root=0; 


MPI Init(&argc, &argv); 
MPI Comm size(MPI COMM WORLD, &nprocs); 
MPI Comm rank(MPI COMM WORLD, krank); 
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float val[N]; 
int myrank, minrank, minindex; 
float minval; 


// fill the array with random values (assume UNIX here) 
srand(2312-*rank); 
for (i-0; i<N; i++) (val[i]-drand48();) 


// Declare a C structure 
struct ( float value; int index; ) in, out; 


// First, find the minimum value locally 


in.value = val[0]; in.index = 0; 
for (i-1; i «N; i++) 
if (in.value > val[i]) { 
in.value = val[il]; in.index = i; 


) 


// and get the global rand index 
in.index = rank*N + in.index; 


// now the compute the global minimum 
// the keyword in MPI for the binary commutative operator 
is MPI MINLOC 
MPI Reduce( (void*) &in, (void*) &out, 1, 
MPI FLOAT INT, MPI MINLOC, root, MPI, COMM WORLD 
); 


if (rank == root) { 
minval - out.value; minrank - out.index / N; 
minindex = out.index % N; 


printf("minimal value $f on proc. $d at 
location $dMn", minval, minrank, minindex); 
} 


MPI_Finalize(); 


2.9.3 Monte-Carlo 随机 积分 算法 估算 rc 
我 们 介绍 Monte-Carlo 抽样 方法 通过 离散 求 和 的 方式 估算 一 个 复杂 的 积分 计算 。 
一 般 而 言 ，Monte-Carlo 抽样 算法 通过 用 离散 求 和 来 估计 结果 的 方法 避 开 了 连续 积分 | 


的 计算 : |S). 为 了 估算 fx( 无 理 数 )， 我 们 在 单位 正方 形 内 随机 的 画 ”个 相同 的 点 。 


然后 我 们 计算 落 入 单位 圆 正 象限 的 点 的 数量 m, 占 所 画 的 所 有 点 的 数量 的 比例 。 因此， 
我 们 可 以 推断 出 : 


x n. 4n 
Tep an 


实际 上 的 近似 值 收敛 地 很 慢 ， 但 这 个 估 测 在 统计 上 被 证 明 是 一 致 的 ， 因 为 我 们 
有 以 下 的 理论 结果 : 





limz, = x 


n--0 


此 外 ， 这 种 方法 是 很 容易 并 行 化 ， 并 且 加 速 比如 预期 一 样 是 线性 的 。 图 2-7 展示 
了 通过 拒绝 采样 (rejection sampling) 的 方法 求 得 n 的 Monte-Carlo 随机 估计 。 
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图 2-7. JH Monte-Carlo 拒绝 采样 方法 来 估算 sc FRANCE RH ETE P BEILE n 个 相同 的 点 ， 
并 且 数 出 落 在 以 原点 为 中 心 的 单位 圆 的 点 的 数量 (n.)。 我 们 将 至 近似 为 比值 三 


WWW source code: MPIMonteCarloPi.cpp 


// filename: MPIMonteCarloPi.cpp 
int main(int argc, char *argv[]) ( 

MPI  Init(&argc, &argv); 

#define INT MAX 1000000000 

int myid, size, inside-0, outside-0, points 
=10000; 
double x, y, Pi_comp, Pi_real 
=3.141592653589793238462643; 


MPI_Comm_rank(MPI_COMM_WORLD, &myid); 
MPI_Comm_size(MPI_COMM_WORLD, &size); 


1f (myid == 0) f 
for (int i-1; i<size; i++) /* send to slaves 
* 
MPI Send(&points, 1, MPI INT, i, i, 
MPI COMM WORLD); 
] else 
MPI Recv(&points, 1, MPI INT, 0, i, 
MPI COMM WORLD, MPI STATUS IGNORE); 
rands-new double[2*points]; 


for (int i-0; i«2*points; i++ ) ( 
rands[i]-random(); 
if (rands[i]«-INT MAX ) 
i++ 


} 


for (int i-0; i<points; i++ ) ( 
x-rands[2*i]/INT MAX ; 
y 
-rands[2*i-«1]/INT MAX, ; 
if ((x*x+y*y) <1) inside++ /* point inside 
unit circle*/ 


} 
delete[] rands; 


if (myid, == Qy ( 
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for (int i=l; i<size; i++) ( 
int temp; 
MPI_Recv(&temp, 1, MPI_INT, i, i, 
MPI_COMM_WORLD, MPI_STATUS_IGNORE) ; 
inside+=temp; 
) /* master sums all ry 
} else 
MPI Send(&inside, 1, MPI INT, 0, i, 
MPI COMM WORLD); /* send inside to master */ 
if (myid == 0) { 
Pi comp - 4 * (double) inside / (double)(size* 
points); 
cout «« "Value obtained: " «« Pi comp «« endl «« 
"Pi:" << Pi real << endl; 


) 
MPI, Finalize(); 


return 0; 
) 


2.9.4 Monte-Carlo 随机 积分 算法 估算 分 子 体积 


一 个 分 子 M 是 由 一 组 n 个 3D 球体 来 模拟 的 ， 每 个 球体 代表 一 个 原子 (给 定位 置 和 
半径 )。 我 们 想 计算 分 子 M WAER oM) (也 就 是 计算 这 些 球体 的 体积 )。 我 们 将 通过 执 
行 随机 近似 的 方法 来 近似 这 个 体积 : 首先， 计算 封 闭 的 边界 框 (Bounding Box, BB). 
然后 在 边界 框 内 执行 拒绝 采样 。 我 们 在 BB AH e 个 相同 的 变量 ， 并 且 数 出 落 在 原子 集 


合 内 的 变量 数 。。 我 们 估算 出 CM) :oCM) ~ “0 (BB) 。 


图 2-8 展示 了 通过 Monte-Carlo 拒绝 采样 算法 来 计算 一 组 2D 球体 集合 。 该 串 行 代 
码 如 下 所 示 : 





图 2-8 用 Monte-Carlo 拒绝 采样 方法 来 估算 球体 集合 M 的 体积 : 首先 ， 我 们 计算 这 些 球 
的 封闭 边界 框 (BB)。 然 后 在 BB 中 画 出 e 个 相同 的 样本 ， 并 且 估 算 这 些 球体 集合 


的 体积 为 v( M) =v (BB) 
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WWW source code: SequentialVolumeUnionSpheres.cpp 


// filename: SequentialVolumeUnionSpheres.cpp 

// Sequential implementation of the approximation of the 
volume of a set of spheres 

#include «limits» 

#include <math.h> 

#include <iostream> 

#include <stdlib.h> 

#include <time.h> 


#define n 8*2 
#define d 3 
#define e 8*1000 


double get rand(double min, double max) ( 
double x - rand() / (double)RAND MAX; 
return x * (max - min) + min; 


double distance2 (double pO[d], double p1[d]) { 
double x - 0; 
for (int i = 0; i < d; i++) ( 
double diff = pO[i] - pil[il; 
x += diff * diff; 
} 
return x; 


} 


int main(int argc, char** argv) { 
srand (0); 
double radiusí([n]; 
double C[n][d]; 
// Generate data 
for (int i = 0; i « n; i++) 4 


radius[i] = get rand(1, 5); 
for (int j = 0; j < di j++) CIilIj] = 
get rand(-20, 20); 


} 
// Compute bounding box 
double bb[d] [2]; 


for (int i = 0; I « d; ++) ( 
bb[i][0] = std::numeric_limits<double>:: 
infinity (); 
bb[i][1] = -std::numeric_limits<double>:: 


infinity(); 


} 
for (int i = 0; i < n; is) ( 
for (int j = 0; j < d; j«*) ( 
bb[j][0] = fmin(bb[3]I[0], CIilI3] - 
radius[il):; 
bb[jl[1] = fmax(bb[j][1], CIillijl + 
radius[il): 
) 
) 
// Compute the volume of the bounding box 
double volBB - 1; 
for (int i = 0; i < d; i++) volBB *= bb[i]I1] - 
bb[il[0]; 


// Draw samples and perform rejection sampling 
int ePrime = 0; 
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for (int i = 0; i < eg i++) ( 
double pos([d]; 
for (int j = 0; j < d; j++) pos[j] = 
get_rand(bb[j][0], bbI[j][1]); 
for (int j = 0; j < n; je) ( 
if (distance2(pos, C[j]) < radius[j] * 
radius[jl) { 


ePrime++; 


} 


} 
// Compute the volume 
double vol = volBB * (double)ePrime / double (e); 
std::cout << vol << std::endl; 
std::cout << ePrime << std::endl; 
return 0; 
} 


让 我 们 在 集群 上 实现 这 个 串 行 代码 。 最 初 ， 我 们 假设 球体 的 集合 存储 在 根 进程 ( 即 
进程 识别 号 为 0) 中 ， 我 们 将 使 用 散播 操作 来 分 发 这 些 数 据 。 然 后 通过 归 约 操作 取出 局 
部 封闭 边界 框 中 的 封闭 边界 框 (使 用 二 元 操作 符 MPI MIN 和 MPI_MRAX)， 用 来 并 行 计 
算 该 封闭 边界 框 。 然 后 这 些 随机 变量 由 根 进程 进行 采样 并 被 派送 到 所 有 使 用 另 一 个 散 
播 操 作 的 进程 。 然 后 每 个 进程 都 验证 这 些 变 量 是 否 落 在 其 局 部 的 球体 集合 中 ， 最 后 我 
们 又 通过 使 用 基于 逻辑 或 运算 符 MPI_LOR 的 归 约 操作 作为 二 元 运算 符 ， 合 计 出 检验 通 
过 的 变量 。 

MPI 实现 如 下 所 示 : 


WWW source code: MPIVolumeUnionSpheres.cpp 


'// filename: MPIVolumeUnionSpheres.cpp 

// Parallel implementation of the approximation of the volume 
of a set of spheres 

#include «limits» 

#include <math.h> 

#include <iostream> 

#include <stdlib.h> 

#include <time.h> 

#include "mpi.h" 


#define n 8*2 

#define d 3 

#define e 8*1000 

double get_rand(double min, double max) { 
double x = rand() / (double) RAND_MAX; 


} 


double distance2 (double pO[d], double pi[d]) { 
double x = 0; 
for (int i = 0; i < d; i++) { 
double diff = pO[i] - plli]; 
x += diff * diff; 
) 


return x; 
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int main(int argc, char** argv) { 
srand (0); 
MPI Init(&argc, &argv); 


int n proc, rank; 
MPI, Comm rank(MPI COMM WORLD, &rank); 
MPI Comm size(MPI COMM WORLD, &n, proc); 


double radiusO[n]; 
double CO[n][d]; 
// Generate data 


1f (rank == 0) f 
for (int i = 0; i « n; i++) f 
radiusO[i] = get rand(1, 5); 
for (int j = 0; j < d; j++) COlil]l[j] 


get rand(-20, 20); 


) 
// Send data to processes 
double radius[n]; 
double Cí[nl[d]; 


int begin - n / n proc*rank; 

int loc.n = n / n proc; 

MPI Scatter(radius0, loc n, MPI DOUBLE, &(radius 
[begin]), loc n, MPI DOUBLE, 0, 


MPI COMM WORLD); 

MPI Scatter(CO, 3 * loc n, MPI DOUBLE, &(C[begin 
1[01), 3 * loc n, MPI DOUBLE, 0, 
MPI COMM WORLD); 

double bb[d][2]; 


// Compute the bounding box 


for (int i = 0; i < d; i++) { 
bb[i][0] = std::numeric_limits<double>:: 
infinity (); 
bb[i][1] = -std::numeric_limits<double>:: 


infinity (); 


for (int j = begin; j < begin + loc_n; j++) 
{ 
bb[il[0] = fmin(bb[i] [0], C[j] fil] - 
radius[j]); 
bbli [1] = -fmax(bb[i][1], CI31]Ii] + 
radius[j]); 


} 

MPI Reduce(rank ? &(bb[i][0]) : MPI IN PLACE 
, &(bb[il[0]), 1, MPI DOUBLE, MPI MIN, 0, 
MPI COMM WORLD); 

MPI Reduce(rank ? &(bb[il[1]) : MPI IN PLACE 


, &(bb[i][1]), 1, MPI, DOUBLE, MPI MAX, 0, 
MPI COMM WORLD); 
) 


// Compute the volume of the bounding box 


double volBB - 1; 

for (int i = 0; i < d; i++) volBB *= bb[ilI1] = 
bb[il] [0]; 

// Draw variates and perform rejection sampling 

double samples[e] [3]; 

if (rank == 0) { 


for (int i = 0; i = er ite) ( 


H Edid 
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for (int j = 0; j < d; j++) samples[illj 
] = get rand(bb[jlI0], bb[j][1]); 
) 


MPI Bcast(samples, 3 * e, MPI DOUBLE, 0, 


2. 10 


MPI 标准 的 前 驱 是 软件 库 PVMS ， 也 就 是 并 行 虚 拟 机 (Parallel Virtual Machine) 。 
PVM 库 既 有 同步 通信 原 语 ， 又 有 异步 通信 原 语 。MPI 标准 处 理 并 行 计 算 已 经 很 好 地 
覆盖 在 许多 教材 中 ， 见 文献 [3，4j] 的 例子 。 在 本 章 中 ， 我们 只 讨论 了 MPI 库 的 主要 概 
念 和 原 语 。 我 们 向 有 兴趣 的 读者 推荐 文献 [5，6]， 其 完全 覆盖 第 一 和 第 二 标准 版 本 ( 称 
为 MPI—1 All MPI 一 ID) 的 所 有 功能 。 在 MPI 标准 中 设计 了 很 多 可 用 来 便于 并 行 编程 的 
有 趣 的 机 制 : 例如 ， 可 以 用 MPI_type_struct 定义 派生 类 等 。 最 新 的 一 个 标准 版 本 
是 MPI-3， 其 用 法 详 见 文献 L[7]。MPI 中 的 并 行 前 级 操作 (或 扫描 ) 在 文献 [8] 中 得 到 很 


MPI_COMM_WORLD) ; 
// Testing variates 


bool hit[e]; 


for (int i = 0; i < e; i++) hit[i] = false; 
for (int i = 0; i « e; i++) ( 
for (int j = begin; j < begin + loc n; j++) 
{ 
if (distance2(samples[i], C[j]) < radius 
[j] * radius[j]) hit[i] = true; 


// Gather results and count the accepted variates 


bool hit0[e]; 
for (int i = 0; i « e; i++) hitO[i] = false; 


MPI Reduce(hit, hit0, e, MPI.C BOOL, MPI LOR, 0, 
MPI. COMM WORLD); 


if (rànk == 0j 
int ePrime 0; 
for (int i 0; i < e; i++) ( 
if (hitO[i]) ePrime++; 


"owe 


) 
double vol - volBB * (double)ePrime / double 
(e); 
std::cout << vol << std::endl; 
std::cout << ePrime << std::endl; 
} 


MPI_Finalize(); 
return 0; 


注释 和 参考 


好 的 研究 、 高 度 优 化 和 基准 化 。 


© http://www. csm. ornl. gov/pvmy/ 。 
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2.11 BS 


MPI 是 一 个 标准 化 的 应 用 程序 编程 接口 (API) ， 其 允许 明确 地 给 接口 ( 即 函数 、 过 
程 、 数 据 类 型 、 常 量 等 的 声明 ) 提 供 通信 协议 和 全 局 计算 程序 的 精确 语义 。 因 此 ， 采 用 
分 布 式 内 存 的 并 行程 序 可 以 通过 由 多 个 供应 商 ( 如 著名 的 OpenMPI、MPICH2S 等 ) 提 
供 的 不 同 MPI 的 实现 方法 来 实现 。 通 信 可 以 是 同步 或 异步 的 ， 缓 冲 或 非 缓 冲 的 ， 并 且 
可 以 在 所 有 进程 在 进行 下 一 步 计 算 前 必须 等 待 其 他 进程 的 地 方 定义 同步 屏障 。 现 在 有 
十 余 种 MPI 实现 方法 ， 而 且 这 些 实现 方法 可 以 被 许多 不 同 的 通过 适当 语言 绑 定 (MPI 
标准 的 MPI 底层 实现 的 封装 库 ) 的 语言 调用 (通常 是 C、C 十 十 和 Python), MPI 标准 
的 最 新 版 本 是 MPI3， 它 比 平常 的 基本 通信 程序 (广播 、 散 播 . 收集 、 多 对 多 ) 多 提供 
200 多 个 函数 ， 这 也 允许 了 以 分 布 式 的 方式 管理 输入 /输出 (IO) 。 


2.12 练习 


练习 1 考虑 数学 恒等式 x 一 [ Did 用 Monte-Carlo 随机 积分 算法 估算 x, UR MPI 程序 
中 的 空缺 部 分 (使 用 C++ 十 绑 定 )， 


WW source code: MPIPiApproximationHole.cpp 


// filename: MPIPiApproximationHole.cpp 
#include <math.h> 

#include "mpi.h" 

#include <iostream> 

using namespace std; 





int main(int argc, char *argv[]){ 
int n, rank, size, i; 
double PI = 3.141592653589793238462643; 


double mypi, pi, h, sum, x; 
MPI::Init(argc, argv); 

size - MPI::COMM WORLD.Get size(); 
rank - MPI::COMM WORLD.Get rank(); 


while (1) ( 


if (rank -- 0) ( 
cout «« "Enter n (or an integer « 1 to 
exit) :" «« endl; 


cin. >> ni 


} 


MPI::COMM_WORLD.Bcast (...); 
if (n«1) { 

/ (double) n; 
Q4 


© http://www. mpich. org/ 。 
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for (i = rank + 1; i <= n; i += size) + 
x = h * ((double)i = 0.5); 
sum += (4.0 / (1.0 + x*x)) 3 

} 

mypi = h * sum; 


MPI::COMM WORLD.Reduce(...); 


Lf [rank ss 0)t€ 
cout «« "pi is approximated by " «« 
pi 


«« ", the error is " «« fabs(pi 
- PI) << endl; 


) 
} 
MPI::Finalize(); 
return 0; 


) 


练习 2(MPI 中 的 Montr-Carlo 拒绝 采样 算法 ) 在 统计 中 ， 为 了 遵循 概率 密度 函数 f(x) 抽取 独立 同 
分 布 变 量 的 样本 ， 其 中 ,概率 密度 函数 是 在 有 限 区 间 [Lm，M] 内 定义 的 ， 其 最 大 值 形式 为 fu Cf GO Bd 
大 值 )， 我 们 可 以 进行 以 下 操作 : 从 均匀 分 布 u —UOn. M) PRE u 的 样本 ， 然 后 从 均匀 分 布 L0， 
FF] 中 抽取 变量 w 的 样本 。 如 果 志 三 f(u)， 那 么 接受 ， 否 则 拒绝 。 直 观 地 说 ,为 了 解释 这 个 过 程 产 
生 了 遵循 密度 函数 f(x) 下 的 独立 同 分 布 变量 ,考虑 在 长 方形 Lmx，M]X[L0，Fj 上 扔 飞镖 ， 并 仪 保留 落 
在 密度 曲线 下 面 的 飞镖 的 横 坐 标 。 拒 绝 采 样 算法 致力 于 非 规范 化 密度 g(rz)， 因 此 ，f (zx) 二 q(x)/Z， 


其 中 Z= | qdr 是 一 个 隐 式 归 一 化 因子 (常数 ). 请 实现 一 个 含有 了 个 进程 的 MPI 程序 ， 选 取 nA 
服从 定义 在 区 间 [ 一 1，1] 上 的 部 分 标准 正太 分 布 的 随机 变量 ,其 非 规范 化 密度 函数 为 g(x) = 
expl -2 ) 。 注 意 这 是 对 计算 n 的 Monte-Carlo 近似 方法 的 一 个 推广 。 


练习 3( 用 MPI 计算 球 之 间 相 交 部 分 的 体积 ) 在 2.9.4 节 , 我 们 利用 Monte— Carlo 随机 近似 方 
法 给 出 了 一 些 串 行 和 并 行 实现 方法 用 来 估算 组 合 的 球体 的 体积 。 请 展示 如 何 使 用 分 布 式 MPI 代码 
来 估算 一 组 球 的 相交 部 分 的 体积 。 


参考 文献 


1. Kernighan, B.W., Ritchie, D.M.: The C Programming Language, 2nd edn. Prentice Hall Profes- 
sional Technical Reference, Englewood Cliffs (1988) 

2. Stroustrup, Bjarne: The C++ Programming Language, 3rd edn. Addison-Wesley Longman Pub- 
lishing Co. Inc, Boston (2000) 

3. Kumar, V., Grama, A., Gupta, A., Karypis, G.: Introduction to Parallel Computing: Design and 
Analysis of Algorithms. Benjamin-Cummings Publishing Co. Inc, Redwood City (1994) 

4. Casanova, H., Legrand, A., Robert, Y.: Parallel Algorithms. Chapman and Hall/CRC numerical 
analysis and scientific computing. CRC Press (2009) 

5. Snir, M., Otto, S., Huss-Lederman, S., Walker, D., Dongarra, J.: MPI-The Complete Reference, 
Volume 1: The MPI Core, 2nd edn. MIT Press, Cambridge (1998). (revised) 

6. Gropp, W.D., Huss-Lederman, S., Lumsdaine, A., Inc netLibrary: MPI: The Complete Refer- 
ence. Vol. 2, The MPI-2 Extensions. Scientific and engineering computation series. MIT Press, 
Cambridge (1998) 

7. Gropp, W., Hoefler, T., Thakur, R., Lusk, E.: Using Advanced MPI: Modern Features of the 
Message-Passing Interface. MIT Press (2014) 

8. Sanders, P., Larsson Tráff, J.: Parallel prefix (scan) algorithms for MPI. In: Recent Advances in 
Parallel Virtual Machine and Message Passing Interface, pp. 49-57. Springer (2006) 


第 3 章 
互联 网 络 的 拓扑 结构 


3.1 两 个 重要 概念 : 静态 与 动态 网 络 ， 以 及 逻辑 与 物理 网 络 


在 本 章 中 ， 一 台 并 行 计 算 机 是 一 个 具有 分 布 式 内 存 的 计算 机 集群 架构 ， 即 ， 通 过 
网 络 互 连 的 计算 机 集合 ， 我 们 将 会 考虑 两 种 类 型 的 网 络 : 

。 静态 网 络 一 旦 固定 之 后 ， 就 不 能 在 使 用 过 程 中 进行 任何 更 改 。 

。 动态 网 络 使 用 一 个 连接 管理 器 ， 总 是 能 够 做 到 适应 网 络 的 通信 状况 或 满足 应 用 

的 需求 。 

当 实现 一 个 并 行 算法 时 ( 即 编程 实 现 并 行 算 法 )， 我 们 还 需要 区 分 物理 网 络 和 还 辑 
网 络 。 一 方面 ， 物 理 网 络 是 现实 中 的 硬件 网 络 ， 其 中 的 每 一 个 节点 是 一 台 计 算 机 (机 
器 、 处 理 器 或 处 理 单元 (PE)) 并 且 两 个 处 理 器 之 间 的 链 路 是 两 台 相 应 的 机 器 之 间 的 直 
接 通信 通道 。 另 一 方面 ， 逻 辑 网 络 是 独立 于 硬件 结构 的 通信 网 络 抽象 : 它 是 算法 /程序 
中 用 来 支持 通信 原 语 的 虚拟 网 络 。 

考虑 到 逻辑 网 络 和 物理 网 络 中 ， 前 者 使 得 并 行 算法 设计 者 免 于 了 解 实际 网 络 硬件 
上 的 本 质 细节 ， 从 而 使 程序 设计 可 以 灵活 应 用 于 各 种 不 同 的 硬件 环境 : 在 运行 时 ， 我 
们 仅仅 需要 通过 称 为 谋 入 或 网 络 转 换 的 机 制 将 逻辑 网 络 映射 到 物理 网 络 。 当 然 ， 当 物 
理 网 络 和 钦 辑 网 络 相 一 致 时 ， 我 们 在 实践 中 获得 了 一 个 理想 的 性 能 。 当 物理 网 络 和 让 
辑 网 络 不 一 致 时 ， 我 们 寻找 一 个 逻辑 网 络 到 物理 网 络 上 的 转换 或 做 人， 来 最 小 化 通信 
原 语 效率 上 的 损失 。 


3.2 互联 网 络 : 图 建 模 


[E P 个 处 理 器 相互 进行 通信 (每 个 处 理 器 都 附 有 一 个 其 自身 独立 的 本 地 存储 )。 我 
们 有 多 种 设计 这 一 通信 架构 的 方法 ! 我 们 可 以 考虑 两 种 对 立 的 极端 情况 : 一 种 架构 是 
使 用 一 条 共享 的 通信 和 总线 连接 所 有 处 理 器 ， 但 是 当 多 消息 同时 发 送 时 ， 它 需要 处 理 潜 
在 消息 冲突 的 问题 ; 另 一 种 是 点 对 点 的 网 络 架构 ， 连 接 所 有 的 处 理 器 对 时 ， 在 每 对 处 
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理 带 之 间 使 用 一 条 专用 的 链 路 来 传输 信息 。 尽 管 后 面 这 一 解决 方案 看 起 来 是 最 佳 的 方 
'p 
31^ 


案 ， 但 其 缺点 在 于 它 是 难以 扩展 的 ， 因 为 这 一 通信 设计 需要 平方 级 的 链 路 数 








PC OPO GRE EF ARO BAD . 


Pi 54s ab 2k 49 BT EA G=(V, EYEEGT BE. 

e Vi 表示 程序 (机 器 、 处 理 器 或 者 处 理 单元 ) 的 顶点 的 集合 。 

e E. 表示 程序 (映射 到 处 理 器 上 ) 之 间 的 通信 和 链 路 的 边 的 集合 。 

注意 通信 边 既 可 以 是 有 向 的 也 可 以 是 无 向 的 。 在 前 一 种 情况 下 ， 我 们 选择 使 用 术 
语 通 信 绝 而 不 是 ( 双 问 ) 边 。 

因此 为 了 建立 一 个 理想 的 拓扑 结构 ， 我 们 在 两 个 对 立 的 准则 当中 寻找 权衡 : 

o 使 链 路 的 数量 最 小 化 以 减少 原料 的 开销 。 

。 使 直接 通信 和 链 路 ( 弧 / 边 ) 的 数量 最 大 化 以 降低 并 行 算法 的 通信 成 本 。 

通信 和 链 路 可 以 是 单 向 或 双向 的 。 双 向 链 路 在 概念 上 简单 来 说 意味 着 通过 增加 反 向 
弧 来 使 边 的 数量 增加 一 倍 。 半 双 工 模型 就 是 一 种 双向 链 路 模型 ， 其 带宽 被 传输 的 消息 
以 反 向 的 形式 进行 共享 。 当 带宽 可 以 被 双向 同时 共享 时 ， 我 们 得 到 所 谓 的 全 双 工 模型 。 

当 我 们 有 许多 并 发 的 通信 时 ， 可 以 得 益 于 其 中 的 重要 因素 : 实际 上 ， 我 们 可 以 假 
定 进程 可 以 同时 发 送 和 接收 信息 ( 非 阻 塞 ) 并 且 同 时 执行 本 地 运算 。 在 一 个 度 为 7 的 逻 
辑 节点 之 上 ， 我 们 也 可 以 定义 并 发 物理 通信 的 最 大 数量 : 如 果 所 有 的 链 路 都 允许 发 送 / 
接收 信息 ， 我 们 便 得 到 了 多 端口 模型 。 否 则 ， 如 果 在 同一 时 间 内 最 多 只 有 上 个 发 送 和 
接收 消息 的 操作 可 以 并 行 执行 ， 那 么 我 们 称 其 为 端口 模型 。 其 中 1 端口 模型 是 我 们 
在 实际 中 经 常 考虑 的 特例 。 

在 余下 的 部 分 中 ,我们 假设 网 络 中 的 路 由 消息 是 在 没有 消息 丢失 的 情况 下 完成 的 : 
也 就 是 说 ， 没 有 消息 被 丢弃 (由 于 缓存 溢出 ) 并 且 我 们 不 考虑 潜在 竞争 的 问题 。 实 际 上 ， 
这 需要 在 链 路 /节点 上 实现 一 个 消息 流 控制 器 ， 这 个 控制 器 可 以 通过 应 用 某 些 策略 的 通信 
管理 器 来 实现 ， 该 管理 器 可 以 应 用 一 些 策 略 来 传输 、 存 储 及 丢弃 消息 。 带 有 竞争 的 通信 
意味 着 附属 于 网 络 的 处 理 器 可 以 在 任意 需要 的 时 候 发 送 和 接收 消息 ， 这 样 会 在 一 条 通信 
链 路 已 经 被 使 用 的 情况 干 产生 冲突 异常 。 因 此 竞争 下 的 通信 助长 了 对 于 网 络 资源 的 争 用 。 

我 们 现在 将 要 通过 学 习 互 联网 络 的 导出 图 的 拓扑 结构 ( 即 一 般 特征 ) 来 更 加 详细 地 
描述 互联 网 络 的 性 质 。 


3.3 一 些 描述 拓扑 结构 的 属性 


图 G 二 (V，E) 中 的 路 径 是 一 个 节点 序列 Vi，…，V。， 满 足 对 于 所 有 的 1<i<C 一 1 


e 从 语源 上 看 ， 词 语 "拓扑 ”来源 于 地 理学 ， 用 来 定义 物体 和 空间 的 全 局 性 质 。 即 ， 例 如 物体 中 连通 组 件 的 
数量 或 者 孔洞 /把 柄 的 数量 。 几 何 学 的 拓扑 描绘 了 几何 物质 类 别 的 特性 。 
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都 有 (V;，Vi41)EE。 图 中 路 径 的 长 度 是 其 中 边 的 数量 : L—C—1. 图 中 两 个 节点 间 的 
距离 是 这 两 个 节点 间 最 短路 径 的 长 度 。 


3.3.1 度 和 直径 


我 们 按 下 列 方式 定义 一 个 网 络 通信 图 G— (V. 上) 的 主要 的 结构 属性 。 

e 维度 : 图 G 中 节点 的 数量 ( 即 p= vi. 

e ARGIS. I=|E|, 

e 节点 的 度 : 一 个 节点 入 链 路 和 出 链 路 的 数量 ， 记 为 4。 在 有 向 图 中 ， 对 于 一 个 
顶点 s RE dCs) =d MOm (Cy) 十 deweoming(s)。 当 所 有 节点 的 度 相 同时 ， 则 称 
图 G 是 规则 的 ， 并 且 使 用 d(G) 来 表示 规则 图 的 度 ，。 

E4 Di: 图 中 任意 两 节点 间 的 最 大 距离 。 


3.3.2 连通 性 和 对 分 


在 实际 中 ， 根 据 需 要 解决 的 问题 的 数据 集 规 模 来 增加 计算 机 集群 中 节点 的 数量 是 
非常 有 趣 的 。 这 需要 能 建立 一 个 可 按 比 例 增 加 的 通用 拓扑 结构 ， 即 可 扩展 的 拓扑 结构 。 
我 们 可 以 通过 定义 下 列 概念 ， 从 子 拓扑 结构 递归 地 描述 拓扑 结构 的 特征 。 

© 网 络 连通 性 : 定义 为 为 了 得 到 两 个 连通 的 网 络 而 需要 去 掉 的 链 路 ( 边 ) 的 最 小 

数量 。 

e 对 分 带宽 0: 连接 两 个 对 半 划 分 的 子 拓扑 结构 所 需要 的 最 少 链 路 数量 。 对 分 带 

宽 是 两 个 对 等 分 制 部 分 之 间 的 带宽 ， 它 是 一 个 衡量 网 络 性 能 的 重要 标准 。 


3. 3.3 一 个 好 的 网 络 拓扑 结构 的 标准 


对 于 一 个 互联 网 络 而 言 什 么 是 好 的 拓扑 结构 呢 ? 这 里 ， 我 们 需要 强调 一 个 拓扑 结 
构 是 满足 一 系列 性 质 的 图 的 集合 。 我 们 期 望 得 到 具备 如 下 性 质 的 拓扑 结构 : 
。 最 小 化 一 个 规则 网 络 的 度 以 获得 廉价 的 硬件 成 本 。 
。 最 小 化 网 络 的 直径 以 获得 供 通 信使 用 的 最 短路 径 。 
e 最 大 化 网 络 的 维度 ， 即 增加 P( 节 点 /处 理 器 的 数量 ) 用 来 处 理 大 量 的 数据 (可 扩 
FETED 。 
我 们 也 可 以 列 出 一 些 性 质 用 来 比较 拓扑 结构 。 
拓扑 结构 的 正面 因素 : 
一 均衡 的 或 对 称 的 。 
一 在 维持 拓扑 结构 的 性 质 时 ， 可 以 对 拓扑 结构 按 比例 缩放 。 
一 具备 可 扩展 的 性 质 ， 以 提升 一 个 并 行 系统 的 性 能 。 
一 具有 较 易 模拟 其 他 虚拟 拓扑 结构 的 性 质 。 
一 减少 拓扑 结构 上 的 消息 路 由 。 
© 拓扑 结构 的 负面 因素 : 
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一 路 由 信息 的 高 开销 或 高 复杂 度 ( 较 大 的 度 )。 

一 对 于 硬件 故障 不 够 健壮 (度数 较 低 或 弱 连 通 性 )。 

一 对 于 执行 通信 原 语 不 够 高 效 ( 度 数 较 低 或 直径 较 大 )。 

一 对 于 执行 高 性 能 的 计算 不 够 高 效 ( 拓 扑 结 构 仅 对 于 小 维度 可 用 ， 即 了 的 值 较 小 )。 
我 们 现在 将 要 快速 浏览 一 下 实际 中 几 种 常见 的 拓扑 结构 。 


3.4 常见 的 拓扑 结构 : 简单 的 静态 网 络 


3.4.1 完全 图 : 团 


含有 忆 个 节点 的 完全 网 络 被 称 为 完全 图 (术语 称 为 团 ) 。 该 网 络 如 图 3-1 所 示 。 一 
方面 ， 它 对 于 处 理 器 间 的 通信 来 说 是 最 理想 的 网 络 ， 因 为 处 理 器 之 间 的 都 是 一 个 单位 
距离 ( 即 ， 直 径 D 二 1)。 男 一 方面 ,节点 的 度 为 4 二 p 一 1( 较 大 )， 并 且 通 信和 链 路 ( 边 ) 的 


P| ‘P= 
2 2 


数量 是 平方 级 的 : ZOP). 显然, 含有 了 个 节点 的 完全 图 网 络 可 以 


很 轻易 地 作为 子 图 来 模拟 其 他 具有 PP 个 节点 的 拓扑 结构 ， 但 是 这 样 的 拓扑 结构 有 过 高 
的 开销 并 面临 着 物理 条 件 约束 2 。 因 此 这 个 团 的 拓扑 结构 在 实际 应 用 中 仅 对 较 小 的 P 
值 适 用 。 





图 3-1 完全 网 络 ( 这 里 表示 为 具有 10 个 顶点 的 完全 图 ， 记 作 Ko ) 最 小 化 了 通信 成 本 ， 但 
是 有 较 高 的 硬件 成 本 ， 或 者 其 在 实际 中 的 可 扩展 性 受 限于 物理 条 件 约束 





日 事实 上 ， 现 实 中 从 一 台 计 算 机 中 扩展 出 太 多 的 线 缆 是 很 困难 的 。 
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3.4.2 BREA 


星 形 图 描绘 在 图 3-2a 中 。 尽 管 其 对 于 通信 非常 高 效 ( 直 径 较 小 D=2), 但 是 当中 
心 节点 不 可 用 时 ， 星 形 拓扑 便 极 易 出 现 故 障 。 


3.4.3 环 和 带 弦 环 


环形 图 及 其 拓扑 结构 如 图 3-2 所 示 。 环 形 拓扑 结构 容许 节点 执行 流水 线 算法 (使 用 
级 联 操作 ) ， 例 如 和 矩阵- 向量 乘积 等 。 环 链 路 可 以 是 单 向 的 (用 有 向 图 表示 ) 或 双向 的 (无 
向 图 )。 环 形 拓扑 结构 的 主要 缺点 之 一 是 其 两 个 末端 节点 进行 通信 所 需要 的 时 间 : 通信 
时 间 ( 逐 步 地 ) 为 D=P 一 1， 也 就 是 有 向 环 的 直径 ,或 者 对 于 无 向 环形 拓扑 结构 其 时 间 


y D-E] KERESE 返回 了 小 于 或 等 于 z 值 的 最 大 整数 。 


星 形 环 带 弦 环 
a) b) c) 


图 3-2 包含 一 11 个 节点 的 星 形 拓扑 结构 。a) 为 通信 保证 了 值 为 2 的 直径 ， 但 是 当中 
心 节点 出 现 故 障 时 通信 便 很 容易 失效 ; b) 环 形 拓 扑 结 构 ; c) 带 弦 环 形 拓扑 结构 ， 
增加 弦 状 通信 链 路 的 方式 可 以 使 环 的 直径 减少 


为 了 最 小 化 环 中 的 大 量 通信 消耗 ,我们 可 以 向 图 中 添加 一 些 弦 ， 并 得 到 所 谓 的 带 
Zr: 由 于 直径 D 的 减 小 通信 速度 会 变 快 。 根 据 添加 的 弦 的 数量 直径 会 不 断 减 小 。 在 
带 弦 环 中 ， 为 得 到 一 个 规则 的 拓扑 结构 (节点 对 称 ， 意 味 着 所 有 的 节点 在 网 络 中 起 同样 
作用 )， 我 们 需要 将 弦 的 步 长 取 为 总 节点 数 也 的 一 个 公约 数 。 例 如 ， 对 于 已 =10 个 节 
点 ， 我 们 可 以 选择 步 长 为 2 或 5( 见 图 3-2)。 


3.4.4 AM SAR CX TEL BJ S 


网 格 或 邻近 网 格 拓扑 结构 适用 于 处 理 图 像 域 中 的 问题 (例如 ， 医 学 图 像 中 使 用 的 处 
理 像素 的 2D 或 处 理 立体 像素 2 的 3D 网 格 拓扑 结构 )， 并 应 用 在 解决 矩阵 问题 的 并 行 算 
法 中 。 网 格 拓扑 结构 的 一 个 主要 缺点 是 它 不 是 一 个 规则 的 拓扑 结构 ， 因 为 位 于 网 格 边 
界 上 的 节点 与 内 部 节点 无 法 拥有 相同 的 度 。 这 意味 着 此 结构 在 实现 算法 时 需要 特别 注 





日 ”立体 像素 代表 体 元 ， 
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意 考 虑 两 种 情形 : 内 部 节点 与 边界 节点 。 环 面 拓 扑 结构 通过 规则 化 来 弥补 了 这 一 不 足 
并 因此 减少 了 并 行 编程 的 任务 量 。 图 3-3 说 明了 不 规则 的 拓扑 结构 和 规则 的 环 面 拓扑 
结构 之 间 的 不 同 。 要 注意 的 是 环形 拓扑 结构 可 以 被 理解 为 一 维 的 环 面 拓扑 结构 。 网 格 
拓扑 结构 与 环 面 簇 ( 环 面 的 集合 ) 可 以 延伸 到 任意 维度 。 这 对 于 基于 张 量 计算 框架 的 现 
代 处 理应 用 程序 来 说 是 更 加 重要 的 。 
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图 3-3 不 规则 的 网 格 拓扑 结构 和 规则 的 环 面 拓扑 结构 (以 2D 和 3D 的 形式 说 明 ) 


3.4.5 三 维 立 方 体 与 循环 连接 立方 体 

立方 体 拓扑 结构 是 规则 的 并 且 其 直径 D==3。 我 们 可 以 通过 使 用 一 个 环 来 代替 每 个 
立方 体 顶 点 以 增加 节点 数量 : 这 样 我 们 就 得 到 了 所 谓 的 循环 连接 立方 体 (Cycle Con- 
nected Cube，CCC) 拓 扑 结构 2 。 这 些 拓 扑 结构 经 常 在 实际 中 使 用 ， 因 为 它们 很 容易 被 
推广 到 高 维度 中 。 图 3-4 说 明了 立方 体 拓扑 结构 和 循环 连接 立方 体 的 拓扑 结构 。 


a) 
图 3-4 a) 立 方 体 拓 扑 结 构 ; b) 循 环 连接 立方 体 ， 或 简称 为 CCC 





© CCC 拓扑 结构 的 优点 在 于 其 度 变 为 了 3 而 不 是 维度 下 的 度数 qd 。 节 点 数 是 P—25. XT 4 的 情况 
直径 D= 2s 一 2 十 Ls/2J， 并 且 当 ,=3 时 D=6, 
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3.4.6 树 与 胖 树 

很 多 并 行 算法 使 用 内 部 数据 结构 树 来 进行 查询 。 树 也 可 以 较 容易 地 实现 深度 优先 
搜索 和 广度 优先 搜索 的 搜索 过 程 。 因 此 选择 可 以 适应 这 些 算法 的 拓扑 结构 (也 称 为 收 辑 
拓扑 结构 ， 有 时 也 称 作 虚拟 拓扑 结构 ) 的 物理 网 络 拓扑 结构 是 很 重要 的 。 我 们 注意 到 越 
是 接近 于 树 根 ， 希 望 用 来 传输 更 多 信息 (通常 是 从 子 树 ， 或 叶子 节点 聚合 信息 ) 的 带宽 
就 会 越 高 。 因 此 ,为 了 考虑 到 这 一 随 着 树 中 节点 高 度 增加 而 减 小 的 带宽 需求 ,我们 还 
建立 了 另 一 种 拓扑 结构 一 一 胖 树 ( 见 图 3-5)。 


图 3-5 树 状 拓扑 结构 : a) 树 ; b) 完 全 树 ; c) 胖 树 。 对 于 胖 树 ， 通 信和 链 路 带宽 随 着 节 
点 与 树 根 距离 的 增加 而 增加 


让 我 们 在 表 3-1 中 总 结 一 下 这 里 介绍 的 几 个 常用 的 拓扑 结构 的 主要 特征 。 
表 3-1 常见 的 简单 拓扑 结构 的 主要 特征 ， 其 中 P 表示 节点 的 数量 ，b 表述 等 分 带宽 





拓扑 结构 处 理 器 P 度 k 直径 D 链 路 | b 
完全 图 P P-1 1 r 
环 P 2 Iz] P 2 
2D 网 格 JP VP 2, 2G/P —1) 2P—2./P VP 
2D 环 面 JP VP 4 oF | 2P 2/P 
超 立 方 体 p=24 d-— log P d +P log, P P/2 


下 面 ， 我 们 介绍 一 种 并 行 计算 中 无 处 不 在 的 关键 的 拓扑 结构 ， 超 立方 体 。 
3.5 ” 超 立 方 体 拓扑 结构 以 及 使 用 格雷 码 进行 节点 标识 


3.5.1 超 立方 体 的 递归 构造 


d 维 的 超 立 方 体 ( 也 称 为 d 立方 体 ) 是 二 维 正 方形 和 三 维 立 方 体 的 一 般 化 。 我 们 通 
过 将 相配 的 超 立方 体 项 点 连接 到 一 起 ， 从 两 个 维 数 为 d 一 1 的 超 立方 体 开始 ， 递 归 地 建 
立 一 个 维 数 为 d 的 超 立 方 体 。 图 3-6 图 示 了 超 立 方 体 的 构造 过 程 。 因 此 ， 我 们 可 以 从 
这 一 递归 构造 过 程 推论 出 : 在 以 维度 上 ， 超 立方 体 有 2 个 顶点 ， 并 且 每 个 顶点 的 度 恰 
好 为 dq( 或 d 条 边 )。 对 于 d€ N ， 超 立方 体 提 供 了 一 个 度 为 d 的 规则 拓扑 结构 。 
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我 们 如 何 标 识 超 立 方 体 的 节点 以 获得 高 效 的 发 送 / 接 收 消 息 的 路 由 /通信 算法 呢 ? 
首先 可 以 考虑 的 策略 是 任意 标识 节点 。 然 而 ， 那 样 我 们 需要 建立 一 个 路 由 表 来 获得 每 
个 节点 的 a 个 邻居 的 标签 。 这 一 方法 无 法 进行 扩展 而 且 需 要 额外 的 内 存 存储 。 我 们 更 
希望 寻找 一 种 标识 表示 ， 使 得 超 立 方 体 的 邻居 节点 ,例如 节点 了 和 节点 Q@， 它 们 节点 
标识 的 二 进 制 表示 中 至 多 相差 一 位 。 这 种 方法 很 容易 验证 邻居 节点 ,例如 P= (0010), 
fI Q— (10100; 是 邻居 节点 因为 P XOR Q 二 1000。 我 们 回顾 一 下 逻辑 XOR 或 称 互 斥 
OR 的 真 值 表 : 





图 3-6 超 立 方 体 的 递归 构造 : 维度 为 0、1、2、3、4 的 超 立 方 体 。 一 个 d 维 的 超 立 方 体 
Hy 由 两 个 d 一 1 维 的 超 立 方 体 通 过 连接 相应 的 顶点 递归 构造 
此 外 ,我们 希望 编码 27 个 不 同 节点 的 a 位 的 标识 与 超 立 方 体 的 d 条 轴线 一 致 : 这 
FÉ. WR OPORDQ 节点 的 二 进 制 表示 只 有 第 d 位 不 同 ， 则 我 们 可 以 推论 出 已 和 Q 可 以 
使 用 第 d. 条 的 链 路 进行 相互 通信 。 超 立方 体 的 这 一 特殊 节点 标识 方法 叫 作 格雷 码 。 


3.5.2 使 用 格雷 码 对 超 立 方 体 节点 编号 


格雷 码 G(i,x) 是 一 种 反射 二 进 制 编码 。 其 特征 为 约定 超 立 方 体 中 两 个 邻居 节点 的 
二 进 制 标 签 仅 使 用 一 位 进行 区 分 。 历 史上 ， 格 雷 码 于 1953 年 在 美国 被 提出 ， 得 名 于 弗 
雷 克 。 格雷 (贝尔 实验 室 ) 的 专利 。 格 雷 码 的 数学 定义 可 以 递归 地 写成 如 下 形式 : 
| 6, = Grr LOFT Gy = 4 
使 用 i 表示 格雷 码 的 序号 ，x 表示 其 位 数 。 那 么 我 们 有 : 
G(0,1)= 0 
Eur 
GG,z+1)= Gisx),i < 27 
GGi,2+1)= 2? +G —1—i,2),i>27 
例如 ， 我 们 使 用 2、3、4 位 分 别 得 到 下 面 的 格雷 码 : 
e G(2)=(0G(1),1G"(1)) =(00,01,11,10) 
e G(3)=(0G(2) 1G" (2) =(000,001,011,010,110,111,101,100) 
e G(4) — (0GC3) ,1G" (3)) — (0000,0001,0011,0010,0110,0111,0101,0100,1100, 
1101,1111,1110,1010,1011,1001,1000) 
* 以 此 类 推 。 
3-7 展示 了 被 称 为 反射 码 的 格雷 码 的 构造 过 程 。 
格雷 码 除了 邻近 节点 标识 使 用 一 位 进行 区 分 之 外 ， 还 有 很 多 有 趣 的 性 质 ， 例如 ， 
格雷 码 是 一 种 循环 码 ， 并 且 当 我 们 翻转 前 面 的 一 位 (0*>*1) 时 ， 一 个 递减 的 序列 便 等 同 


于 一 个 递增 的 序列 。 
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格雷 码 (反射 二 进 制 ) 
000 


G(2) 

反射 MA 
0 00 

1 01 

1 11 

0 10 

二 进 制 码 

000 

001 001 
010 011 
011 010 
100 110 
101 111 
110 101 
111 100 


图 3-7 格雷 码 以 一 种 反射 码 的 形式 构造 


超 立 方 体 上 的 汉 明 距离 可 以 用 来 计算 任意 两 个 节点 间 的 距离 (等 同 于 一 条 最 短路 径 
的 边 的 长 度 )。 令 P—(COP,4 7 Pih A RQS Qu i QD; SER WIAI d 维 超 立 方 体 的 顶点 。 
PP 与 Q 间 的 距离 即 为 最 短路 径 的 长 度 并 且 相 当 于 在 它们 二 进 制 表示 上 的 汉 明 距离 : 


d—1 
Hamming(P,Q) = 2)1px0 
i=0 i 


例如 ， 我 们 可 以 得 到 Hamming (1011, 1101) = 2, 


只 是 通过 计算 PAQ He 


(XOR) 操 作 后 为 1 的 位 数 ， 我 们 便 可 以 计算 出 PP 和 Q 之 间 的 汉 明 距离 。 


3.5.3 使 用 C+ 十 生成 格雷 码 
首先 ， 我 们 通过 C 十 + 中 的 字符 串 的 方式 给 出 一 种 反射 码 的 简单 实现 : 


// filename: GrayString.cpp 


// Naive recursive implementation of the Gray code using strings 


#include <iostream> 
#include <string.h> 
using namespace std; 


string * Mirror(string * s, 


( string * res; 
res-new string[nb]; 
int i; 
for (i=0; i«nb; i++) 

{ res[iJ=s[nb-1-i]; 
) 
return res; 


// copie 


int nb) 
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string * GrayCode (int dim) 
{ string * res; 
int i, card=1<<(dim-1); 


if (dim==1) 
{ res=new string[2]; res[0]="0"; reB[1]1z"1*'; 
) else 


( 
string *GC-GrayCode(dim-1); 
string * GCreflected-Mirror(GC, card); 
res-new string[2*card]; 


// prefixe 

for (i-0; i<card; i++) 

{ res[iJ="0"+GC[il; 
res[i*card]-"1"4GCreflected[i]:; 


) 


return res; 


void printCode(string * code, int nb) 
{ 

int i: 

for (i=0; i«nb; i++) 


cout <<code[i]<<endl; 
} 
} 


int main() 

{ 
int i, dim=4; 
string * GC=GrayCode (dim); 
printCode(GC, 1<<dim); 

} 


现在 ， 我 们 给 出 一 种 更 好 的 C 十 十 源码 ， 该 代码 通过 STL( 标 准 模板 库 ) 在 任意 维 
数 n 下 生成 一 组 格雷 码 ， 如 下 所 示 : 


// filename: GraySTL.cpp 
// C** code using the STL class vector 
class Gray ( 
public: 
Vector <int> code(int n) ( 
vector<int> v; 
v.push_back (0); 


for(int i OQ; i € n» fti E 

int h = 1 «€ ii 

int len - v.size(); 

for(int j = len = 1; j >= 0; j--) ( 
v.push back(h + v[j]); 


} 
} 
return v; 


Fè 
我 们 接 下 来 可 以 按 如 下 方式 使 用 这 个 类 : 


#include <iostream> 
#include <vector> 
#include <bitset> 


using namespace std; 


int main() { 
Gray g; 
vector<int> a = g.code(4); 
for(int i = 0; i « a.size(); i++) 
{aout << a[i] << *Xt';) 


cout << endl; 
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for(int i = 0; i < a.size(); i++) 
{cout << (bitset<8>) afi] << "\t";} 
cout << endl; 


return 0; 


} 


编译 后 ， 运 行 该 代码 在 输出 控制 台 上 生成 下 面 的 结果 : 


0 1 3 2 6 7 5 4 
12 13 

15 14 10 ii 9 8 

00000000 00000001 00000011 00000010 
00000110 

00000111 00000101 00000100 00001100 
00001101 

00001111 00001110 00001010 00001011 
00001001 

00001000 


图 3-8 展示 了 在 四 维 超 立 方 体 上 的 格雷 码 。 


1111 





图 3-8 4 维 超 立 方 体 由 2 —16 个 节点 的 格雷 码 标识 


3.5.4 格雷 码 和 二 进 制 码 的 相互 转换 


图 3-9 展示 了 格雷 码 与 二 进 制 码 之 间 的 转换 规则 。 对 于 二 进 制 编码 ， 我 们 添加 了 
另外 一 位 并 置 为 0， 作为 二 进 制 编码 的 最 高 有 效 位 (Most Significant Bit，MSB) 。 格 雷 
码 的 第 i 位 g; 被 置 为 0 当 且 仅 当 其 相应 的 邻居 的 二 进 制 位 匹配 。 这 一 实验 可 以 通过 使 
用 一 个 异 或 (XOR) 逻 辑 门 实现 。 

它 遵 循 的 规则 为 : 当 一 个 二 进 制 编码 转换 为 一 个 格雷 码 时 ， 可 以 同时 并 行 计算 位 
gi( 例 如 ， Æ CREW PRAM 模型 上 )。 当 从 格雷 码 转换 到 二 进 制 码 时 ， 我 们 由 计算 最 
高 有 效 位 开始 ， 之 后 执行 一 个 级 联 的 转换 过 程 直 到 最 终 达 到 最 低 有 效 位 (Least Signifi- 
cant Bit，LSB) 。 

图 3-9 和 图 3-10 阐述 了 一 些 转换 实例 。 


3.5.5 图 的 笛 卡 儿 乘 积 
笠 卡 儿 图 乘积 适用 二 元 运算 符 因 表示 。 令 GQ,—(Vi,. EDUR G,; —(V,. E, XWi 
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个 连通 图 。 它 们 的 笛 卡 儿 乘 积 G 二 G1C@Gs 二 (V，E) 可 以 按 如 下 定义 : 


g=0 €» bi XOR b=0 





新 增 的 位 被 置 0 
(不 属于 原 有 二 进 制 码 ) 


图 3-9 将 格雷 码 转换 为 等 价 的 二 进 制 码 的 步骤， 反之 亦 然 


转换 (0110), 一 (0101)。 


MILL 格雷 码 
oo 二 进 制 码 








转换 (1011) (1101), 


nmn 格雷 码 
PT TI = 
Foray 格雷 码 
ETOT | 二 进 制 码 


图 3-10 ”两 个 格雷 码 与 二 进 制 码 相互 转换 的 实例 ,将 二 进 制 编码 (0110)， 转换 为 其 等 价 
的 格雷 码 (0101)。， 以 及 将 格雷 码 (1011)。 转换 为 其 等 价 的 二 进 制 编码 (1101)， 









. 顶点 集合 V: V=V, XV, ={ (u, Up), uu €V,, us € Vo}. 


。 边 集合 E: 
= eof“ = foe mel Ep 
ú, = v s (usv) € E; 
图 3-11 展示 了 一 个 图 的 笛 卡 儿 积 的 示例 (其 逆 运 算 或 许可 以 理解 为 图 的 分 解 操作 ) 。 
两 条 边 的 乘积 是 一 个 4 顶点 的 环 : K,OK,=C,, HP Ks, 表示 有 两 个 节点 的 
a: 一 条 边 ! K。 和 一 条 路 径 的 乘积 称 为 梯形 图 。 两 条 (线性 ) 路 径 的 乘积 得 到 一 个 
网 格 等 。 
HE, d 维 的 超 立 方 体 可 以 由 4 次 一 维 边 的 笛 卡 儿 图 乘积 得 到 
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(Uz, V1) (tiz, V2) (1, V3) 





ue 
MI Vy V3 z 
| z | 
ul 
(tiy, v). (a V2) Q5, Ys) 
re ë. G, 9 G, 


Eg 3-11. 关于 图 的 笛 卡 儿 积 的 示例 
K: K — Hypercube, Cd XH -k JL £8) 
dal 2 fa oa) 


dk 
因此 我 们 可 以 通过 图 的 笛 卡 儿 积 推导 出 下 列 超 立 方 体 的 闭 包 性 质 ; 
Hypercubey OHypercubeys = Hypercubey ys 


3.6 一 些 拓 扑 结 构 上 的 通信 算法 


让 我 们 考虑 有 已 个 节点 的 环形 拓扑 结构 : Po。，…，P,-1。 假 设 其 链 路 是 单 向 的 ， 
因此 环 是 有 向 的 (假定 是 按 顺 时 针 方 向 ，CW)。 我 们 回顾 一 下 两 个 常用 的 MPI KA: 
Comm_size() 返 回 了 P 的 值 ， 即 节点 数量 ; Comm_rank() 给 出 了 进程 号 ， 索 引 值 从 
0 到 P—1, 

让 我 们 假设 环 上 采用 SPDM( 单 程序 多 数据 ) 的 计算 模式 : 所 有 处 理 器 执行 相同 的 
代码 ， 所 有 的 计算 在 它们 进程 的 本 地 内 存 空间 上 执行 。 我 们 给 出 两 种 基本 的 通信 原始 
操作 : 发送 (send) 和 接收 (receive) 使 得 进程 P, 能 够 按 如 下 方式 进行 通信 。 

e send(address,length): 按 地 址 address 向 Pl;jjymodp 发 送 一 条 存储 于 本 

地 内 存 空间 的 消息 (长 度 为 length 字 节 ) 。 
* receive(address,length): 按 地 址 address 从 P) moap 接收 一 条 消息 
并 将 其 存储 于 本 地 内 存 空 间 中 

相 比 于 MPIS ， 我 们 这 里 不 考虑 消息 中 的 tag 属性 ， 并 且 所 有 节点 从 属于 相同 的 
通信 组 (同样 的 “通信 域 ”)。 

通信 原 语 send 和 receive 是 同步 且 阻 塞 的 ， 因 此 我 们 可 能 遇 到 非 期 望 的 死 锁 。 
我 们 也 可 以 选择 性 地 考虑 非 阻 塞 Isend() 与 阻塞 receive 0 的 方法 ， 或 者 是 非 阻塞 
Isend () 与 非 阻塞 Ireceive() 的 方法 。 

为 了 衡量 通信 成 本 ， 让 我 们 使 用 / 来 表示 一 条 消息 的 长 度 。 发 送 或 接受 消息 的 操 
作 可 以 被 建 模 成 所 谓 的 a 一 rt 模型 ， 可 以 按 如 下 表示 为 一 个 线性 函数 at rl: 

* a: 不 能 被 压缩 以 及 产生 延迟 的 通信 的 初始 化 开销 。 

9. T: 传输 率 。 





© MPI 语法 提供 了 许多 选项 。 参 考 http://www. mcs. anl. gov/research/projects/mpi/sendmode. html, 
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FA dE BB da P—1 的 情况 下 ， 一 个 当前 调用 的 进程 在 发 送 或 者 接收 一 条 长 度 
为 :的 消息 时 ， 简 单 认为 开销 是 date). 

(有 向 ) 环 上 的 四 个 基本 通信 操作 为 : 

。 广播 。 

e 个 性 化 广播 或 者 散播 。 

。 收集 。 

。 传播 (多 对 多 、 全 交换 ) 。 

这 一 列表 中 的 原 语 并 不 完全 ， 因 为 在 MPI 标准 中 存在 更 多 的 通信 模式 ， 例 如 个 性 
化 全 交换 等 。 


3.6.1 有 向 环 上 的 通信 和 原 语 


不 失 一 般 性 ， 我 们 假设 进程 Pu( 根 进程 ) 向 有 向 环 中 其 他 所 有 进程 Pi o. Ppa 
逐步 地 发 送 一 条 长 度 为 7 的 消息 ， 如 图 3-12 所 示 。 
这 一 广播 操作 需要 P 一 1 步 ， 将 消息 迭代 地 发 送 给 Pl ，…，P。,_1。 显 然 ， 对 于 一 


条 需要 从 P, 发 送 到 P, 的 消息 ， 我 们 需要 6 一 a 十 1 步 。 因 此 (a，z) 模 型 中 的 广播 开销 
为 (P 一 1) (a 十 tl)。 我 们 可 以 根据 消息 的 长 度 观测 出 参数 a 和 zc 的 相对 权重 。 
下 面 给 出 基于 阻塞 通信 的 实现 过 程 的 伪 代 码 。 


第 一 步 第 二 步 











receive 


图 3-12 有 向 环 上 的 广播 操作 


我 们 使 用 轮 询 调 度 技术 在 环 上 循环 发 送 消息 。 
下 面 给 出 完整 的 MPI 实现 过 程 : 
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WWW source code: MPTBroadcastRing.cpp 


// filename: MPIBroadcastRing.cpp 
// Broadcasting on the oriented ring 
# include <mpi.h> 

# include <cstdio> 

# include <cstdlib> 

using namespace std; 


int next () 

{ 
int rank,size; 
MPI Comm rank ( MPI, COMM WORLD , &rank ); 
MPI Comm size MPI, COMM WORLD , &Size ) ; 
return ((rank + 1) $ size); 

) 


int previous() 


int rank,size; 
MPI Comm rank 
MPI. Comm, size 


MPI COMM WORLD , &rank ); 
MPI COMM WORLD , &size ) ; 


一 一 


return ((size + rank - 1) % size); 
} 
int main ( int argc , char * argv []) { 
int rank , value , size ; 
if (arge == 2) 
value = atoi(argv[1]): 
else 


value = rand % 1001; 
MPI_Status status ; 
MPI Init (& argc , & argv ). ; 


MPI Comm rank ( MPI. COMM WORLD , &rank ) ; 
MPI Comm size ( MPI. COMM WORLD , &size ) ; 
if ( rank == 0) ( 
/* Master Node sends out the value */ 
MPI Send ( &value , 1 , MPI INT , next() , 0, 
MPI COMM WORLD) ; 
else ( 
/* Slave Nodes block on receive then send on the value 
27A 
MPI_Recv ( &value , 1 , MPI INT , previous() , 0, 
MPI COMM WORLD , &status ) ; 
if ( rank « size - 1) ( 
MPI Send ( &value , 1 , MPI INT , next() , 0, 
MPI COMM WORLD ) ; 
printf ( "process $d received $d n" , rank , value ) ; 


} 
MPI_Finalize(); 
return 0; 

} 


1. 散播 : 个 性 化 广播 

散播 是 一 种 个 性 化 的 广播 操作 ， 主 要 在 于 向 环 上 的 各 个 进程 发 送 一 个 个 性 化 消 
息 。 让 我 们 假设 Pu 是 当前 调用 进程 ， 并 且 Pu 想 要 向 进程 P; 发 送 消息 M;。 所 有 的 
消息 都 存储 于 Pu 的 本 地 内 存 。 使 用 address 表示 一 个 消息 指针 的 数组 ，address 
[让 表示 Mi 的 指针 。 我 们 将 使 用 非 阻 塞 的 通信 原 语 Tsend() 以 及 阻塞 的 原 语 re- 
ceive() 进 行 消息 传递 。 我 们 选择 阻塞 的 receive O 目的 在 于 保证 消息 可 以 按 正确 
的 顺序 接收 。 我 们 介绍 一 种 高 效 的 技术 ,使 用 了 不 同 通信 之 间 的 重 盖 ! 图 3-13 展示 
了 散播 操作 。 

环 上 散播 通信 原 语 的 实现 过 程 可 以 写成 如 下 的 伪 代 码 : 
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第 0 步 ， 时 间 0 
address[l] 第 1 步 ， 时 间 a+zt 第 i 步 ， 时 间 ila+rD) 
address[l] address[l] 


address[P-2] address(P-i-1] 













address[P-1] 


address[P-i] 





Pies ar at Pia T" P ndi 


图 3-13 环 上 散播 操作 的 图 示 ( 自 项 向 下 ， 从 左 到 右 ) 


// Scattering operation on the ring (personalized messages) 
// - initial calling process P, 

// - length of message l 

// - individual messages are stored in an array 'address' 
scatter(k, address, 1) 

( 

Comm rank(); 

Comm size(); 


q 
卫 


"ou 


// I am the calling process P, 
// I send using a non-blocking operation 


for (i=1;i<p;i=i+1) 
(Isend(address[k-i mod 
pl,i);) 


else 


{ 
receive(address,1); 


for (i=1;i<k-q mod p;i = i*1) 
{Isend(address,1); 
receive (temp,1)j; 
address = temp; } 


} 


从 而 我 们 可 以 估计 环 上 散播 操作 的 复杂 度 为 (P 一 1) (a 十 tl)。 因 此 ， 由 于 使 用 了 重 
合 策 略 ， 其 通信 复杂 度 与 广播 操作 开销 是 相同 的 。 


WWW source code: MPIScatteringRing.cpp 


// filename: MPIScatteringRing.cpp 
// Scattering on the oriented ring 
# include <mpi.h> 

# include <cstdio> 

# include <cstdlib> 

using namespace std; 


int main ( int argc , char * argv []) í 
int rank , size ; 
MPI Status status ; 
MPI Init (& argc , & argv ) ; 
MPI Comm rank ( MPI COMM WORLD , &rank ) ; 
MPI Comm size ( MPI, COMM WORLD , &size ) ; 
MPI Request request; 
if (rank == 0){ 


int values[size-1]; 
for(int i=0;i<size;i++) { 
values [i]=i*i; 
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for (int i =1; i < size; i++){ 
printf ("process 0 is sending value $d to process $d 


intended for process %d\n",values[size-1-i],1 
size-i); 


MPI Isend(&values[size-1-i],1,MPI INT,1,0, 
MPI COMM WORLD,k&reqguest); 
} 
} 
elseí 
int my received val; 
int val to transfer; 
for (int i = rank; i < size-1; i++){ 
MPI Recv(&val to transfer,1,MPI INT,rank-1,0, 
MPI COMM WORLD,&status); 
printf ("process $d received value %d for process %d 
which it now transfers to process %d\n",rank, 
val to transfer,size-l-i-«rank,rank-*1); a 
MPI Isend(&val, to transfer,1,MPI INT,rank-*1,0, 
MPI COMM WORLD, &request); 
) 


MPI Recv(&my received val,1,MPI INT,rank-1,0, 


MPI COMM WORLD,&status); 


printf ("process #d received value $d from process %d\n", 
rank,my received val,rank-1); 
) 


MPI_Finalize(); 
return 0; 
) 


2. 全 交换 (传播 或 多 对 多 通信 ) 

全 交换 也 称 作 传播 ， 是 一 个 所 有 进程 向 其 他 进程 发 送 个 性 化 消息 的 通信 过 程 。 最 
初 ， 每 个 进程 P; 拥有 其 本 身 的 消息 M;,; (其 中 1 三 j 夺 P) 并 本 地 存储 在 数组 myaa- 
dress 中 。 在 传播 调用 结束 时 ， 所 有 的 进程 拥有 一 个 数组 address[]， 这 样 ad- 
dress[j]fü& THE Pi 发 送 的 消息 。 

环 上 的 全 交换 (al1-to-al1l) 通 信 原 语 的 实现 按照 下 面 的 代码 给 出 : 


// Total exchange collective communication 
all-to-all(myAddress,adr,1) 
{ 

q = Comm rank(); 

p = Comm_size(); 


address[q] = myAddress; 

for (isi;i«p;i-e*) ( 
send(address[q-i«1 mod p],1); 
Ireceive (address[q-i mod p],1); 


) 
) 


因此 环 上 的 多 对 多 全 交换 的 开销 为 (P 一 1) (a 十 tL)。 如 果 当 我 们 考虑 个 性 化 全 交换 
时 其 开销 是 相同 的 。 

3. 用 于 减少 通信 次 数 的 流水 线 广 播 

由 于 简易 的 广播 算法 与 散播 算法 (使 用 流水 线 操作 ) 拥 有 相同 的 开销 ( 即 (P 一 1) 
(a 十 tL))， 我们 可 以 按 如 下 方式 降低 广播 操作 的 复杂 度 : 

。 我 们 将 消息 M 切 分 为 r 部 分 (让 我 们 假设 1mod r 一 0， 即 ! 可 以 被 -整除 ) 。 

。 为 实现 流水 操作 ， 当 前 调用 进程 需要 成 功 发 送 消息 的 妃 个 块 。 


使 用 address[0].:-.address[r- 1 表示 消息 的 > 块 的 地 址 。 有 回环 上 流水 线 
广播 操作 原 语 的 实现 方法 已 按照 如 下 的 伪 代 码 形式 给 出 : 
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broadcast(k, address, 1) 
{ 


q = Comm_rank(); 
p = Comm_size(); 
if (q == k) 
{ 
for (i=0; i<r; i++) send(address[i], l/r); 
} else 
if (q == k-1 mod p) 
{ 
for (i=0; i<r; i++) Ireceive(address[i], l/r); 


} else { 
Ireceive(address[0], l/r); 
for (iz0; i«r-1; i++) { 
send(address[i], 1/r); 
receive (address[i+1], l/r); 
} 


} 
} 


现在 ， 让 我 们 考虑 一 下 流水 线 广播 操作 的 通信 复杂 度 : 消息 的 第 一 片 M。 2a 
(Pp 一 1) (atr 二 ) 时 被 最 后 一 个 进程 Pp_ 1 接收， 之 后 剩余 的 r 一 1 块 依次 到 达 。 因 此 我 


们 增加 (7 一 1) (ate 二 的 时 间 。 总 体 来 讲 ， 整 体 的 开销 为 ， 


fe = (P—2+n)(atre+) 
为 了 得 到 最 优 的 复杂 度 ， 我 们 需要 选择 每 一 块 的 最 佳 尺 寸 ~。 容易 计算 得 到 : 


ms 
由 此 得 到 流水 线 广播 的 开销 为 : 
(VP — 2)a + d Y 
我 们 注意 到 当 消 息 的 长 度 ! 变 得 足够 大 (或 渐 近 地 当 /一 cc)， 流 水 线 广播 的 开销 变 
成 了 tl。 从 而 这 一 开销 不 依赖 于 已 ， 因 为 已 作为 固定 值 可 以 被 忽略 。 
在 本 章 中 ,我 们 已 经 叙述 了 基本 的 环 上 通信 算法 。 去 考虑 其 他 的 拓扑 结构 ， 并 且 
了 解 拓 扑 结构 是 如 何 影响 这 些 通信 算法 的 也 很 有 趣 。 例 如 ， 相 比 于 环形 拓扑 结构 ， 星 
形 拓扑 结构 上 的 通信 操作 有 什么 不 同 ? 在 星 形 图 上 ， 最 大 的 距离 是 2 但 是 我 们 需要 考 
虑 缓冲 区 操作 (并 且 要 注意 潜在 的 缓冲 区 溢出 )。 类 似 地 ， 当 我 们 不 考虑 环 而 是 考虑 含 
有 双向 链 路 的 带 弦 环 时 又 会 发 生 什 么 呢 ? 我 们 将 要 简洁 地 综述 一 下 超 立 方 体 上 的 广播 
算法 ， 并 在 这 一 拓扑 结构 上 展示 树 状 通信 。 


3.6.2 超 立 方 体 上 的 广播 : 树 状 通信 


在 超 立 方 体 的 两 个 任意 节点 P 和 Q 之 间 ， 我 们 有 精确 的 Hamming(P, Q)! 
O 表示 阶乘 符号 ) 种 不 同 路 径 。 例 如 ，Hamming(00,11) 王 2! = 二 2 并且 这 里 存在 两 
条 不 同 的 路 径 : 00—10—11 和 00—01—11, 
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00 < 01 


t t 
10 e 11 


让 我 们 考虑 广播 原 语 : 一 份 消息 由 一 个 根 进程 发 送 到 所 有 其 他 的 进程 。 首 先 一 份 
消息 可 以 使 用 通信 和 链 路 从 根 节点 发 往 所 有 的 邻居 (距离 为 1 )， 并 且 之 后 所 有 距离 为 1 
的 进程 可 以 发 送 给 它们 的 直接 邻居 ( 即 ， 与 根 进 程 之 间 的 距离 为 2)， 以 此 类 推 1 然而 
这 会 产生 低 效 的 算法 因为 我 们 在 链 路 上 发 送 的 通信 消息 会 产生 元 余 。 

一 种 更 有 效 的 路 由 算法 主要 是 从 最 低 有 效 位 2 (Least Significant Bit，LSB) 开 始 ， 
并 且 通 过 将 节点 P 的 二 进 制 表示 转换 为 节点 Q 来 发 送 消息 ， 这 种 转换 是 通过 翻转 位 来 
完成 ,这些 位 的 位 置 就 是 P XOR Q 结果 中 为 1 的 位 人 位置。 例如， 从 P=1011 到 Q= 
1101 进行 通信 ， 我 们 首先 计算 P XOR Q=0110。 我 们 可 以 推论 出 P 在 轴 链 路 1 上 向 
P'=1001 发 送 了 一 份 消息 ， 并 且 之 后 已 在 链 路 2 上 向 P"—1101— P 发送 了 一 份 消息 ， 
以 此 类 推 。 

我 们 现在 准备 考虑 超 立 方 体 上 的 广播 算法 。 从 调用 节点 进程 Py =(0…0)* 开 始 ， 
我 们 通过 添加 额外 的 一 位 将 其 更 名 为 (10…0),;， 我 们 继续 按 如 下 方式 进行 : 进程 在 与 
它们 第 一 位 1 相 一 致 的 链 路 上 接收 消息 ， 并 在 这 个 位 1 出 现 的 轴 的 链 路 上 发 送 消息 。 
因此 共 需 要 d= 二 logzP 步 ， 其 中 表示 进程 的 数量 。 

图 3-14 图 示 了 那些 不 同 的 通信 步骤。 这 里 存在 立方 体 上 更 有 效 的 广播 算法 ， 但 为 
了 简洁 我 们 在 本 书 中 自动 省 略 。 


采用 格雷 码 标记 的 四 维 超 立 方 体 1011 11 





1011 1111 


0111 





图 3-14 超 立 方 体 上 的 广播 操作 : 不 同 通信 步骤 的 可 视 化 表示 





o 或 者 , 我 们 也 可 以 考虑 最 高 有 效 位 (Most Significant Bit, MSB), 
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图 3-14 (4D 


从 广播 算法 中 得 到 的 广播 树 称 为 超 立方 体 的 二 项 履 盖 树 ， 图 3-15 展示 了 这 样 一 个 
二 项 树 。 
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1100 1010 1001 0110 0101 0011 
1110 1101 1011 0111 


1111 


图 3-15 覆盖 超 立 方 体 的 二 项 树 ( 这 里 ， 维 度 为 4 并 含有 16 个 节点 )。 注 意 在 一 个 特定 
的 高 度 上 ， 被 置 为 1 的 位 数 是 恒定 的 


下 面 给 出 完整 的 MPI 实现 : 


WWW source code: MPIBroadcastHypercube.cpp 


// filename: MPIBroadcastHypercube.cpp 
// Broadcasting on the hypercube 
#include <mpi.h> 

#include <iostream> 

#include <vector> 

#include <bitset> 

#include <cstdio> 

#include <cstdlib> 

using namespace std; 


class Gray{ 
public: 
vector «int» code(int n) { 
vector <int> v; 
v.push_back (0); 
for(int i-0; i « n; itt) { 
int h - 1 «« i; // 100000 with i zeros 
int len - v.size(); 
for(int j = len-1;j>=0;j--) { 
v.push_back(h+v[j]); 
} 
} 
return v; 
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} 
Yj 


int lowest non zero bit(int order, int code)( 
// we take the convention from the course, that the lowest nonzero bit 


of 0 is 1 « i where i -- "order of the gray code" 
if(code -- 0) 

return order; 
else({ 

int temp = code; 

int i=0; 

while(temp *$ 2 == 0){ 

ict; 


temp - temp / 2; 
) 
return i; 
) 
) 


vector«int» neighbours(int order, int code)( 
vector<int> res; 
int lnz = lowest non zero bit(order,code); 
if (1nz--0) 
return res; 
else(í 
for(int i-0;i«l1nz;i-*-*)( 
res.push, back(code + (1 << (1nz-1-i))); 
) 
return res; 
) 
) 


vector«int» reverse lookup(vector«int» * graycode)( 
int n = graycode->size(); 
vector<int> res(n)j; 
for(int i=0;i<n;i++) { 
res[(*graycode) [i]]=i; 
} 


return res; 


} 


int main(int argc, char * argv[]){ 
int rank,size,order; 
MPI_Status status ; 
MPI Init (& argc , & argv ) ; 
MPI Comm rank ( MPI COMM WORLD , &rank ) ; 
MPI Comm size ( MPI COMM WORLD , &size ) ; 


order-0; 
while((1 << order) < size)( 
order++; 
) 
Gray g; 
vector<int> toGray = g.code(order); 
vector«int» fromGray = reverse lookup(&toGray); 


// we build a reverse lookup table from the Gray codes of all nodes 
so as to be able to retrieve their actual rank in constant time 


if (rank--0)( 
int value - rand() $ 1001; 
printf("I am process 0 and am now sending out the value 
%$d\n", value); 
vector <int> rootNeighbors = neighbours (order ,0); 
for(int i-0;i« rootNeighbors.size();i++){ 
int neighbRank = fromGray[rootNeighbors[i]]; 


// we retrieve the actual rank of the current neighbour from 
its Gray code 

if (neighbRank<size) { 

// remember we "rounded up" to the smallest hypercube 
containing all nodes, so we need to check this is an actual 

neighbor 

printf ("process $d: my current neighbor is %d\n",rank, 
neighbRank); 

MPI Send(&value,1,MPI INT,neighbRank,0,MPI. COMM WORLD); 


) 
} 
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} 
elsel 

int grayRank = toGray [rank]; 

int lnb = lowest_non_zero_bit (order ,grayRank); 

int grayPredecessor = (grayRank - (1 << lnb)); 

int predecessor = fromGray[grayPredecessor]; 

cout << "I am process " << rank << " of gray code " << 
(bitset<8>) grayRank << " and I am waiting for a 
message from my predecessor in the binomial tree " 
<< predecessor << endl; 

int received_value; 

MPI_Recv (&received_value,1,MPI_INT, predecessor ,0O, 
MPI COMM WORLD,&status); 

vector«int» rootNeighbors - neighbours(order,grayRank); 

if (rootNeighbors.size() == 0){ 

cout «« "I am process " << rank «« " of gray code " 
«« (bitset«8») grayRank «« " and I have no 
descendants, so I will stop here!" << endl; 
) 
elseí 


cout «« "I am process " «« rank «« " of gray code " 
<< (bitset<8>) grayRank << " and am now sending 
out the value " «« received value «« " to my 
neighbors "«« endl; 

for(int i-0;i« rootNeighbors.size() ;i++) { 


int neighbRank = fromGray[rootNeighbors[ill; // we 
retrieve the actual rank of the current neighbour from its 
Gray code 


iff (neighbRank<size) { 

// remember we "rounded up" to the smallest hypercube 
containing all nodes, so we need to check this is an actual 
neighbor 

MPI Send(&received value,1,MPI INT,neighbRank,0O, 

MPI COMM WORLD); 
) 


) 
) 
) 
MPI Finalize(); 


return 0; 
) 


超 立 方 体 是 一 个 著名 的 拓扑 结构 ， 因 为 它 是 一 个 可 以 按 比例 扩展 的 规则 拓扑 结构 . 
并 且 能 够 在 实际 中 模拟 (仿真 ) 环 形 和 环 面 拓扑 结构 。 事 实 上 ， 规模 为 2 X2: 的 环形 拓 
_ 扑 结构 可 以 通过 使 用 格雷 码 (Gray, ，Gray,) 标 记 节点 的 方式 ,被 柑 人 到 一 个 (d= 二 7 十 s) 
超 立 方 体 中 。 我 们 将 在 下 一 节 中 进一步 讨论 那些 拓扑 嵌入 。 


3.7 将 (逻辑 ) 拓 扑 结构 谋 入 到 其 他 (物理 ) 拓 扑 结 构 中 


在 本 章 的 开始 ,我 们 已 经 说 明了 依赖 于 硬件 特性 的 物理 网 络 和 由 设计 者 考虑 用 来 
实现 并 行 算 法 的 逻辑 网 络 ( 又 称 为 虚拟 网 络 ) 之 间 的 不 同 。 当 这 些 物 理 和 逻辑 网 络 相 一 
致 时 ， 我 们 便 得 到 了 最 优 的 性 能 ， 和 否则 我 们 需要 通过 一 种 指定 的 物理 节点 和 逻辑 节点 
之 间 的 对 应 关系 的 伐 入 操作 ， 来 实现 在 物理 网 络 上 模拟 逻辑 网 络 。 当 将 一 种 拓扑 结构 
嵌入 到 另 一 种 当中 时 ， 这 里 有 两 个 基本 的 参数 需要 进行 优化 : AFC BIRR, ELH 
迎 辑 网 络 中 两 个 任意 邻居 节点 在 物理 网 络 中 的 最 大 距离 ; 其 次 是 扩展 度 ， 遵 循 如 下 的 
比率 进行 定义 : 
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一 个 好 的 从 入 力求 获得 一 个 为 1 的 膨胀 度 以 及 为 1 的 扩展 度 ， 目 的 在 于 避免 通信 
性 能 降低 ( 当 扩 展 度 大 于 1 时 必然 会 发 生性 能 下 降 )。 将 拥有 P 了 二 2* 个 节点 的 环 垦 入 到 
EJ WH,—i(0. 1^ 上 是 非常 容易 的 : 这 一 方案 如 图 3-16 所 示 。 然 而 ， 这 第 一 个 
方案 并 非 最 优 因为 它 在 链接 环 中 的 两 个 邻居 时 会 产生 高 膨胀 度 : 实际 上 ， 通 过 这 一 方 
案 得 到 的 膨胀 度 与 超 立 方 体 的 维 数 相 匹配 (这 里 为 3) 。 





图 3-16 嵌入 具有 8 个 节点 的 环 到 维 数 为 3 的 立方 体 上 的 示例 (最 优 扩展 度 )。 在 超 立方 
体 上 需要 3( 超 立方 体 的 维 数 ) 条 物理 链 路 的 环 上 的 逻辑 边 以 虚线 形式 展示 。 因 
此 膨胀 度 为 3 


幸运 的 是 ， 我们 可 以 通过 将 环 中 的 节点 A; RA BBA PAR Heo.» M 
而 获得 膨胀 度 和 扩展 度 因子 均 为 1 RRRA. BF GG, dH d 位 格雷 码 中 的 第 i 位 
码 字 。 我 们 从 而 利用 格雷 码 的 循环 特性 实现 了 超 立 方 体 上 的 环 循环 。 图 3-17 展示 了 这 
一 最 优 的 网 络 变换 。 

我 们 也 可 以 最 优 地 在 超 立 方 体 上 授信 2D 网 格 ( 其 中 边界 节点 度数 为 2， 或 者 内 部 
节点 度数 为 4) 以 及 二 叉 树 。 





图 3-17 将 轴 辑 环 网 络 垦 入 到 物理 超 立 方 体 网 络 上 的 最 优 方案 : 每 个 环 中 的 节点 A, 对 应 
一 个 超 立 方 体 中 的 节点 Hes» HE G(i，d) 是 d 位 格雷 码 中 的 第 i 位 码 字 


3.8 复杂 规则 拓扑 结构 


回顾 一 下 通过 定义 得 到 ， 一 个 规则 拓扑 结构 中 的 每 个 节点 都 起 相同 的 作用 : 因此 
所 有 的 节点 都 有 相同 的 度 。 令 Nid, DO — P 表示 度 为 4 且 直 径 为 DD 的 规则 图 中 的 点 
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的 最 大 数量 。 我 们 在 如 下 情况 下 得 到 Nd, D)=P 
«4-23: E D-| | toss. 


e d=P—1 且 D=1 的 完全 图 。 
e d=log, P Hd=log, P 的 超 立方 体 。 
图 3- 18 展示 了 一 个 更 为 复杂 的 规则 拓扑 结构 : 
d—3 H D=2 的 彼得 森 图 。 我 们 也 可 以 通过 使 用 规则 
图 的 笛 卡 儿 积 得 到 复杂 规则 拓扑 结构 : 例如 ， 开 :四 
Cs (Cs 表示 环 ， 即 含有 5 个 节点 的 循环 ) 等 。 
一 般 而 言 ， 如 果 一 个 规则 拓扑 结构 受 约束 于 具有 
规则) 度数 & 以 及 有 界 直径 D 时 ,我们 定义 摩尔 不 等 
式 来 为 这 一 规则 拓扑 能 够 具有 的 最 大 节点 数 己 提供 图 318 复杂 规则 拓扑 结构 示 
LF. 例 , 彼得 森 图 (其 中 
e N(2,D)<2D+1 d—3, D=2 B P=10) 


== D .— 
。N(d,D)< 717 2. a > 3 


e N(d,D) —12 951 451 931 
对 于 彼得 森 图 ， 我 们 发 现 摩尔 上 界 N (3， 2545 352 2 王 10。 因 此 它 是 最 优 的 ， 


WA RE A de So dite 
卡 儿 图 乘积 得 到 了 一 个 P—24 个 节点 ,d=5 且 D—2 的 规则 拓扑 结构 ( 见 图 3-19) 。 但 
是 摩尔 上 界 等 于 26 。 找 到 更 好 的 界限 依然 是 一 个 开放 性 研究 问题 。 我 们 希望 读者 参考 
文献 [1] 来 了 解 关于 摩尔 上 界 的 最 新 研究 。 


一 2 





3-19 KXs 产 生 的 规则 拓扑 (Xs 画 在 左 侧 ) : P 一 24 个 度 为 d=5 的 项 点， 直径 为 D—2 


3.9 芯片 上 的 互联 网 络 


现代 处 理 器 都 是 多 核 的 : 多 为 四 核 或 八 核 ， 但 有 时 在 专门 的 架构 上 处 理 器 具有 大 
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量 的 多 核 处 理 器 。 例 如 ， 因 特 尔 至 强 (Intel Xeon Phi) P J&— iX x86 处 理 器 ， 使 用 72 核 
达到 了 3TFlops 的 性 能 。 这 是 集成 众 核 (Many Integrated Core, MIC) 架构 的 一 个 例 
子 。 芯 片 使 用 光 刻 工艺 制造 (对 于 至 强 处 理 器 ， 使 用 14 纳米 )， 并 且 超 级 计算 机 通过 将 
这 些 芯片 聚集 到 机 架 模块 上 构建 而 成 。 现 今 ， 我 们 的 目标 在 于 建造 具有 每 秒 万 亿 次 浮 
点 运算 (TFlops) 性 能 的 超级 计算 机 。 

为 了 最 小 化 那些 需要 访问 内 存 来 加 载 和 存储 变量 的 计算 所 带 来 的 延迟 ， 我 们 在 实 
际 中 要 处 理 层次 式 存储 类 型 (以 及 高 速 缓存 ) : 寄存 器 、 高 速 缓存 、 动 态 RAM 等 。 使 
用 动态 随机 存储 器 (DRAM) 大 约 需 要 X100 的 时 钟 周期 来 访问 那些 变量 的 值 ! 我 们 也 
需要 一 个 核 间 互联 网 络 让 它们 之 间 进 行 通信 。 也 就 是 说 我 们 需要 在 芯片 上 互联 网 络 。 利 
用 处 理 器 的 优点 ,我 们 将 CPU 的 设计 由 运算 为 中 心 的 芯片 转换 为 通信 为 中 心 的 芯片 。 

图 3-20 展示 了 使 用 一 条 共享 总 线 的 通信 过 程 : 一 个 单一 节点 每 次 在 总 线 上 发 送 一 
条 消息 ， 可 以 被 其 他 所 有 处 理 器 接收 (并 发 读 取 ， 简 称 CR)。 当 两 个 处 理 器 试图 在 同一 
时 间 占 用 总 线 时 ， 便 会 发 生 冲 突 ! 因此 广播 在 总 线 上 高 效 但 并 不 是 一 种 聚合 原 语 ! 为 
了 避免 竞争 ， 每 个 处 理 器 可 以 利用 令 牌 来 使 用 通信 协议 。 我 们 通过 需要 拥有 一 个 特殊 ， 
的 令 牌 来 保证 每 个 处 理 器 的 唯一 性 ， 从 而 确保 在 发 送 消息 时 没有 冲突 发 生 。 





图 3-20 共享 总 线 上 的 通信 以 及 竞争 : 当 两 个 处 理 器 (或 核 ) 试 图 在 同一 时 间 在 总 线 上 
进行 通信 时 、 我 们 会 得 到 一 个 冲突 。 冲 突 可 以 通过 使 用 单一 的 软件 令 牌 来 解 
决 ， 这 对 于 发 送 消息 是 必需 的 


当 创 建 通信 开关 时 需要 一 定 的 启动 时 间 ， 但 是 一 旦 其 被 创建 ， 其 构造 为 消除 冲 罕 
提供 了 保证 (因此 我 们 不 需要 任何 仲裁 ) 。 当 我 们 使 用 互 斥 的 开关 时 ， 多 个 信息 传输 成 
为 了 可 能 。 

路 由 也 可 以 通过 电路 交换 和 分 组 交换 完成 : 

e 电路 交换 。 首 先 ， 为 出 发 点 与 目标 点 之 间 的 连接 预 留 链 路 。 之 后 发 送 消息 。 例 

如 ， 电 话 网 络 就 是 一 个 使 用 电路 交换 的 例子 。 
© 分 组 交换 : 每 个 分 组 分 别 路 由 。 链 路 只 有 在 数据 传输 时 被 占用 。 例 如 ， 网 际 协 
议 便 是 这 样 一 个 分 组 交换 的 例子 。 





C  http://en. wikipedia. org/ wiki/Xeon Phi, 
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交叉 开关 网 络 如 图 3-21 所 示 ， 人 多 许 每 对 处 理 器 以 较 小 的 延迟 进行 通信 。 交 叉 开 关 
网 络 的 缺点 在 于 其 较 高 的 硬件 复杂 性 : 事实 上 ， 它 需要 平方 级 数量 的 开关 ， 即 OP) 
( 见 图 3-22). 


Po P, 


— 7 
pose 


P, P, 
Fg] 3-21 在 处 理 器 P, 和 Pa, P. 和 3-22 ”交叉 开关 网 络 
P, 之 间 初 始 化 通信 的 4X 4 
交叉 开关 网 络 





为 了 实现 按 比例 扩展 ， 我 们 可 以 使 用 omega 网 络 。 一 个 omega RIA T logP 个 


开关 ， 即 2X2 交叉 开关 ， 并 分 为 log P 个 等 级 。 与 交叉 开关 网 络 相 比 ，omega 网 络 的 
每 条 链 路 需要 更 少 的 复杂 度 ， 但 是 延迟 为 O(log P)。 图 3-23 图 示 了 omega 网 络 ， 并 
且 展 示 了 在 处 理 器 000 和 处 理 器 110 之 间 发 送 消息 时 的 路 由 示例 。 路 由 算法 很 简单 ， 
但 是 由 于 我 们 不 能 同时 无 冲突 地 发 送 多 条 消息 ， 所 以 网 络 是 阻塞 的 。 





图 3-23 动态 多 级 omega 网 络 : 展示 了 处 理 器 000 和 处 理 器 110 之 间 的 通信 。 消 息 往 返 于 
2X2 开关 之 间 


3.10 ”注解 和 参考 


研究 并 行 算法 的 经 典 教材 [2-3] 描 述 了 多 种 拓扑 结构 以 及 它们 在 并 行 算法 中 的 应 


BSF 互联 网 络 的 拓扑 结构 77 








Jl. Hennessy 和 Paterson 的 书 [4] 中 对 不 同 的 计算 机 架构 (拓扑 结构 的 节点 ) 进 行 了 性 
能 评价 。 限 定 给 定 度数 d 和 直径 D. 的 规则 拓扑 结构 中 最 大 节点 数目 的 上 界 依然 是 一 个 
开放 性 研究 问题 : 参考 文献 [1] 来 获得 这 一 方向 的 最 新 进展 。 


3.11 总 结 


计算 机 互联 网 络 在 数学 上 可 以 建 模 为 图 ， 其 中 顶点 表示 计算 机 节点 ， 边 描述 了 那 
些 节 点 之 间 的 通信 和 链 路 。 我 们 区 分 了 物理 网 络 和 被 并 行 算法 用 来 执行 通信 的 逻辑 网 络 。 
当 一 个 逻辑 网 络 与 底层 物理 网 络 不 同时 ， 我 们 需要 将 逻辑 网 络 转换 或 嵌入 到 物理 网 络 
上 。 和 那样 的 话 ， 我 们 需要 寻找 同时 最 小 化 膨胀 度 (定义 为 逻辑 网 络 中 的 邻居 节点 在 物理 
网 络 中 对 应 的 两 节点 之 间 的 最 大 距离 ) 以 及 扩展 度 (定义 为 物理 网 络 中 的 节点 数目 与 逻 
辑 网 络 中 的 节点 数目 之 比 ) 的 最 优 变 换 (或 租 入 )。 网 络 拓 扑 结 构 是 对 依赖 于 节点 数目 的 
图 形 簇 特征 的 研究 。 实 际 当中 常用 的 拓扑 结构 包括 环 ( 有 向 的 或 无 向 的 )、 星 形 、 网 格 
及 环 面 、 树 和 超 立 方 体 ， 这 里 只 列举 一 些 。 在 一 个 规则 拓扑 结构 中 ， 图 中 所 有 的 顶点 
起 相同 的 作用 ( 即 ， 我 们 不 能 根据 节点 的 人 /出 边 集合 进行 区 分 ， 意 味 着 存在 顶点 对 称 
性 )， 这 使 得 实现 并 行 算法 更 为 便捷 ， 因 为 我 们 不 需要 考虑 节点 的 类 型 : 它们 在 规则 拓 
扑 结构 中 是 相同 的 。 超 立方 体 拥有 一 个 P— 2" 顶点 的 度 为 d. 的 规则 拓扑 结构 并 且 常 用 
于 应 用 中 ， 因 为 它 允 许 较 容易 地 实现 不 同 的 基本 通信 原 语 ， 例 如 通过 使 用 高 效 的 格雷 
码 来 标记 节点 实现 广播 原 语 。 超 立方 体 也 可 以 模拟 其 他 常用 的 拓扑 结构 ， 例 如 环 、 树 
和 网 格 。 但 是 这 里 还 有 很 多 在 并 行 计算 中 使 用 的 其 他 图 形 簇 如 De Bruijn 图 ， 也 称 作 混 
洗 交 换 图 等 。 
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第 4 章 
并 行 排序 


4.1 串 行 排序 快速 回顾 


令 久 二 {zx1，"…，Z} 表 示 一 组 存储 在 数组 XLO], s Xin] PR n7 SC. E 
意 ， 下 标 i 偏 移 了 一 位 ， 即 X[i] 二 zi;y1，i 从 0 到 7 一 1。 我 们 以 递增 排序 为 例 ， 即 生成 一 
个 序列 (za)， E. ro) BRE xam. 排序 相当 于 在 索引 (1， asg n) 中 找 一 个 


置换 o 使 得 uro, (通常 在 顺序 统计 学 中 ， 我们 使 用 缩写 形式 oO — GD. AW 
存在 着 n! On 的 阶乘 ) 个 不 同 的 置换 ， 因 此 ， 也 就 有 n! 种 不 同方 式 打 乱 ( 混 洗 ) 一 个 有 
序 序列 ， 例 如 (1，…，7) 。 
我 们 假设 在 一 个 分 布 式 内 存 并 行 架 构 上 ， 使 用 P 个 进程 进行 排序 ， 且 待 排序 的 数 
据 已 经 分 配 到 了 P 进程 中 ， 用 X。，…，Xp_1 表 示 。 在 并 行 排序 的 最 后 阶段 ，X; 中 的 
所 有 元 素 都 已 按照 递增 顺序 排 好 ， 并 且 小 于 等 于 X;; i 中 的 所 有 元 素 , Oei P—2. 
接 下 来 我 们 详细 地 回顾 一 下 那些 常见 的 串 行 排序 算法 。 


4.1.1 主要 的 串 行 排序 算法 


(1) 冒 泡 排序 (Bubble Sort)。 置 泡 排 序 过 程 是 增 量 的 ， 并 且 使 用 传播 机 制 : 让 
输入 数组 的 最 大 元 素 向 上 移动 直到 找到 它 自 身 的 位 置 ， 并 为 第 二 大 的 元 素 重 复 这 个 过 
程 ， 直 到 最 小 的 元 素 找到 自己 的 位 置 为 止 。 这 种 排序 算法 的 名 称 来 自 水 下 气泡 升 到 水 
面 的 现象 . 图 4-1 阐述 了 冒 泡 排序 的 一 个 例子 。 这 个 算法 很 简单 ， 也 很 容易 编程 。 对 于 
n 个 待 排序 元 素 ， 该 算法 的 最 坏 情 况 的 复杂 度 是 平方 级 别 ， 即 O(n’) 。 

(2) 快 速 排序 (Quicksort)。 快 速 排序 是 一 种 随机 递归 算法 ， 它 随机 选择 一 个 元 
素 作 为 主 元 ， 其 平均 时 间 复 杂 度 为 O(nlogn)。 在 调用 快速 排序 之 前 ， 我 们 首先 在 线性 
时 间 内 对 输入 数组 随机 排列 。 然 后 快速 排序 会 选择 第 一 个 元 素 XL0] 作 为 主 元 ， 并 把 X 
分 成 三 个 子 数组 : 数组 X< 中 的 所 有 元 素 都 严格 小 于 主 元 ， 数 组 XS 中 的 所 有 元 素 都 严 
格 大 于 主 元 ， 数 组 X- 中 的 所 有 元 素 都 等 于 主 元 (如 果 数 组 中 的 所 有 元 素 都 不 同 ， 则 此 
数组 的 大 小 为 1) 。 快 速 排序 最 后 对 更 小 规模 的 数组 X- 和 XW. 不 断 递 归 调 用 本 身 ， 然 后 
将 这 些 子 数组 连接 在 一 起 ， 最 终 返 回 一 个 有 序数 组 : 
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=] Ex E) 
eee | 12] 119) 4j 
BEG) 
阶 阶段 2: 阶段 3: 


ST BE: 
最 大 的 数 向 上 移动 第 二 大 的 数 向 上 移动 第 三 大 的 数 向 上 移动 
图 4-1 EHE HERE MOT. 这 个 例子 需要 平方 时 间 才 能 排 好 序 : 我 们 比较 了 连续 元 素 对 。 
在 阶段 1 完成 后 ， 最 大 的 元 素 达 到 数组 的 最 后 一 个 位 置 。 然 后 我 们 迭代 地 进行 第 
二 大 元 素 的 移动 ， 如 此 类 推 





QuickSort(X)-—(QuickSort(X-), X=, QuickSort(X.)) 

需要 注意 的 是 ， 如 果 没 有 随机 选择 主 元 ， 那 么 你 需要 首先 用 一 个 随机 排列 来 保证 平均 
时 间 复 杂 度 为 O(nlogn)。 否 则 ， 如 果 输 入 一 个 有 序数 组 ， 快 速 排序 可 能 需要 平方 时 间 
才能 完成 。 一 个 更 严谨 的 分 析 证 明了 快速 排序 需要 O(n 十 nlogp) 时 间 ， 其 中 p 是 数组 
中 不 同 元 素 的 个 数 。 因 此 ， 当 所 有 元 素 均 相同 时 ， 我 们 预期 可 以 在 线性 时 间 内 排 好 序 。 

(3) 归 并 排序 (MergesSort)。 归 并 排序 算法 递归 地 进行 ， 过 程 如 下 : 首先 ， 我 们 
将 数据 分 成 两 个 列表 ， 并 一 直 递 归 地 拆 分 子 列表 ， 直 到 列表 中 只 有 一 个 元 素 ( 根 据 归并 
排序 的 定义 ， 这 是 递归 的 最 终 情况 )。 然 后 我 们 将 这 些 排 好 序 的 列表 两 两 合并 ， 直 到 我 
们 得 到 所 有 元 素 都 排 好 序 的 列表 。 图 4-2 展示 了 归并 排序 的 过 程 。 主 要 原则 在 于 将 两 
个 排 好 序 的 列表 合并 成 一 个 排 好 序 的 列表 : 合并 过 程 可 以 在 线性 时 间 内 轻松 完成 ， 因 
此 归并 排序 的 总 时 间 复 杂 度 为 O(nlogn)。 


递归 地 归并 子 列表 ”递归 地 拆 分 列表 





图 4-2 阐述 了 并 行 归并 算法 ( 细 粒 度 并 行 ) 
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(4) 基 数 排序 (RadixSort)。 基 数 排序 算法 依赖 于 数字 的 2 位 的 二 进 制 形式 : v; = 
b-1 
Dt 2). 首先 ， 根据 元 素 的 二 进 制 值 (1 或 0) 把 它们 分 成 两 组 ， 从 最 低 有 效 位 (Least 
J=0 
Significant Bit，LSB) 开 始 到 最 高 有 效 位 (Most Significant Bit，MSB) 。 基 数 排序 的 时 
间 复 杂 度 是 O(bn) 。 需 要 注意 的 是 ， 如 果 用 5 位 表示 一 个 整数 ， 那 么 最 多 可 以 有 二 2" 
个 不 同 的 数字 。 即 ， 需 要 blogin 才能 保证 所 有 的 元 素 均 不 同 。 在 这 种 情况 下 ， 基 数 
排序 的 时 间 复 杂 度 是 O(zlogz) ， 与 归并 排序 的 时 间 复 杂 度 相同 。 


4.1.2 排序 的 复杂 性 : 下 界 


为 了 获得 对 n 个 不 同 元 素 使 用 小 于 关系 (二 ) 排 序 时 的 复杂 度 的 下 界 ， 首先 考虑 一 
个 单独 的 小 于 比较 关系 (二 ) 将 置换 空间 分 成 了 两 部 分 。 这 样 ， 为 了 找到 能 够 把 所 有 元 
素 排 好 序 的 正确 置换 ， 从 恒 等 置 换 开 始 ， 通 过 比较 操作 ， 不断 地 拆 分 置换 空间 ， 直 到 
得 到 一 个 单一 置换 集合 : 排序 的 置换 解决 方案 。 也 就 是 说 ， 需 要 计算 出 根据 置换 集合 
构造 的 决策 树 的 深度 。 对 于 一 个 有 个 节点 的 二 叉 树 ， 树 的 深度 至 少 是 | logon | (用 符 
号 |] 表示 向 下 取 整 函数 )， 又 因为 有 n! 个 可 能 的 置换 ， 因 此 可 以 推断 出 决策 树 的 最 小 


深度 是 llog! |. JH Stirling 公式 来 通 近 n!: n! ~ Van (= E 推断 出 logon! = 


O(Czlogz) 。 这 证 明了 串 行 排序 需要 Alog) KÆR tb fede E. TE EGR IAM. PARAL 
适用 于 慎重 考虑 过 的 可 计算 模型 中 。 我 们 通常 假设 实数 随机 存 取 机 (real-RAM) 模 型 ， 
在 这 种 模型 中 ,实数 的 基本 算术 运算 可 以 在 常数 时 间 内 完成 并 且 不 需要 考虑 数值 精度 
的 问题 7 在 其 他 可 计算 模型 中 ,我 们 可 以 利用 整数 排序 技术 ,使 用 线性 内 存 空 间 站 在 
O(nloglogn) 时 间 内 完成 稳定 排序 。 同 时 针对 部 分 有 序 的 序列 ， 还 可 以 使 用 已 经 经 过 验 
证 、 可 以 更 快 排序 的 自 适 应 算法 [2]。 


4.2 通过 合并 列表 实现 并 行 排序 


图 4-2 展示 了 如 何 对 归并 排序 算法 进行 细 粒 度 的 并 行 。 我 们 使 用 P—n 个 进程 来 分 
割 数据 并 递归 地 合并 已 排序 的 子 列表 。 该 算法 串 行 时 间 的 复杂 度 分 析 如 下 所 示 : 


logn 


er Ala el Bela 
与 之 相反 ， 因 为 ye = = La , 归并 排序 的 并 行 排序 实现 的 复杂 度 是 ， 
tpar = oes 2)= OG) 


i=0 





这 个 方法 是 低 效 的 ， 因 为 该 方法 所 获得 的 加 速 比 是 2 和 一 OClogn)。 理想 情况 下 ， 
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我 们 的 目标 是 最 优 线性 加 速 比 O(P) 二 O(n)。 如 图 4-2 所 示 ， 当 我 们 归并 子 列表 时 ， 
一 些 进程 可 能 会 没有 工作 任务 。 


4.3 利用 秩 实现 并 行 排序 


一 个 重要 的 问题 是 ， 并 行 排序 是 否 可 以 在 O(logn) 时 间 内 完成 ? 我 们 可 以 看 到 ， 
通过 设计 一 个 简单 的 基于 计算 元 素 秩 的 并 行 算法 ， 完 全 可 以 实现 这 一 目标 。 然 而 ， 这 
个 秩 排序 (Ranksort) 算 法 并 不 会 产生 最 优 加 速 比 。 

对 每 个 元 素 XG], RIER T E LKH E HE: 

RUJ = | { XG] € X | XG] < XU]! | 
BU. X[i]RU Bk ROI APM RDF X[ 菇 的 数组 元 素 的 个 数 。 最 小 元 素 的 秩 是 0， 最 大 元 
素 的 秩 是 n 一 1。 然 后 ,我 们 将 元 素 放 入 一 个 新 的 辅助 数组 Y 中 ， 该 数组 会 按照 如 下 方 
式 排 好 序 : YLR[ 门 ]==X[ 站 Yi。 这里， 我 们 假设 所 有 元 素 都 是 不 同 的 ， 以 避免 出 现 相 
同 的 秩 (并 且 获 得 所 有 元 素 的 排序 关系 )。 

我 们 可 以 很 容易 地 将 计算 秩 的 过 程 并 行 化， 并 将 其 扩展 到 Pan 个 节点 上 ， 具体 
过 程 如 下 所 示 : 对 于 一 个 给 定 的 元 素 Xi]. 我 们 判断 逻辑 语句 XDjI-—X[i]. Vje 
11，…，?}， 并 且 当 逻辑 语句 为 假 时 计数 0， 当 人 逻辑 语句 为 真 时 计数 1。 然 后 将 所 有 计 
数 累 加 到 一 起 。 也 就 是 说 ,我 们 有 : 


a= 


R[i]— 5j lrxtjjexta] 
j=0 Y 
次 辑 语句 值 转 化 为 0( 假 ) 或 1( 真 ) 


使 用 双重 循环 实现 的 串 行 秩 排序 代码 如 下 所 示 + 


foe (i = 0; i « nj i++) 
{ // for each element 
rang = 0; 
for (j = 0; j < ni jt*) 
{// we count the number of elements smaller than 
itself 
Af (atil = atal) 
{rang++;} 
} 
// then we copy the element at its right position 
into new array b[] 
b[rang] = a[i]; 


串 行 秩 排序 的 时 间 复 杂 度 为 平方 级 ，i., OQ). BO E te EE E IST TR] ET 
个 元 素 的 秩 。 但 它 的 并 行 实 现 使 用 了 P= 个 处 理 器 ， 因 此 并 行 实现 是 线性 的 ，z,, 二 
OCP)=O(n). 

HE. FRAP P=n 个 进程 并 行 化 秩 排 序 算法 。 在 实际 中 ， 对 于 较 小 的 ”， 
可 以 使 用 GPU 来 完成 并 行 化 ，GPU 一 般 含 有 上 千 个 图 形 单元 。 

为 了 计算 一 个 元 素 的 秩 ， 我 们 需要 使 用 n 个 进程 来 计算 逻辑 语句 的 值 ， 并 用 一 个 
归 约 操作 (前 级 和 ，MPI_Reduce / MPI_Sum) 来 汇总 结果 。 因 此 我 们 用 P? =n 个 进 
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程 来 计算 所 有 元 素 的 秩 。 进 程 Pi 计算 布尔 语句 lrxrj1<xrj]， 然 后 通过 汇集 进程 DP... 
布尔 语句 的 结果 来 计算 X[ij 的 秩 ， 其 中 PL. 代表 由 进程 P;,; OR RLPOSUR BOSE. 
见 图 4-3。 


afi] a[0]a[;] afi] afl] a[2] afi] a[3] 


HAZ 





图 4-3 在 秩 排序 中 ， 通 过 汇集 所 有 布尔 语句 lr[xrjj=xri] 的 值 来 计算 元 素 的 秩 ， 当 布尔 
语句 为 真 时 计数 1: 这 是 一 个 协同 归 约 操作 


总 的 来 说 ， 使 用 平方 个 进程 完成 并 行 秩 排序 所 需 的 时 间 可 以 看 作协 同 归 约 操作 所 
需 的 时 间 。 而 归 约 操作 的 时 间 取 决 于 互联 网 络 的 拓扑 结构 。 对 于 logn 维度 的 超 立 方 体 
拓扑 结构 ， 归 约 操 作 可 以 在 对 数 时 间 内 完成 ,但 是 对 于 环形 拓扑 结构 ， 则 需要 线性 时 
间 才 能 完成 。 因 此 ， 通 过 在 超 立 方 体 拓扑 上 使 用 P= 个 进程 ， 我 们 得 到 : 

tpar = O(logn) 

当 我 们 选择 完全 连通 图 ( 团 ) 作 为 拓扑 结构 时 ， 归 约 操作 可 以 在 常数 时 间 内 完成 ( 假 
设 我 们 可 以 同时 接收 来 自 一 1 个 邻居 的 数据 ，”， 并 且 使 用 P=ni 个 进程 的 秩 排序 算法 
只 需要 常数 时 间 OC). 


4.4 并 行 快速 排序 


回顾 一 下 之 前 的 内 容 ， 对 于 一 个 主 元 zx， 我 们 把 数据 分 成 两 个 数组 XA XK. It 
处 为 了 简洁 起 见 ， 我 们 把 数组 X 和 数组 X- 合并 。 然 后 递归 地 对 子 数 组 Xert 
ouickSort(X<.) 和 X~.<ouicksort(X-~,。) 排 序 ， 最 终 通过 如 下 连接 方式 获得 有 
序数 组 : 

QuickSort(X)=(QuickSort(Xe<,), QuickSort(X.,)) 

如 果 我 们 随机 选择 EX, FY LAA Bl — A T9] OE AREA O(nlogn) 的 随机 算法 。 
否则 ， 如 果 采 用 确定 的 方式 选择 主 元 ， 我 们 可 以 计算 中 位 数 ( 一 个 可 以 在 线性 时 间 内 完 
成 的 顺序 统计 操作 来 平衡 两 个 子 数 组 的 大 小 ， 然 后 我 们 可 以 得 到 一 个 时 间 复 杂 度 为 
O(n log nn) 的 确定 算法 。 

在 C++ 中 用 标准 模板 库 (STL) 实 现 的 快速 排序 的 代码 可 以 在 下 列 文件 中 找到 : 
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[WWW source code: SequentialQuickSort.cpp | 


// filename: SequentialQuickSort.cpp 
# include -vector.h» 

# include <iostream.h> 

# include <multiset.h> 

# include <algo.h> 





// pivot 
template <class T> 
void quickSort(vector«T»&v, unsigned int low, 
unsigned int high) 
{ 
if (low >= high) return; 
// select median element for the pivot 


unsigned int pivotIndex = (low + high) / 2; 
// partition 
pivotIndex - pivot (v, low, high, pivotIndex); 


// sort recursively 
if (low « pivotIndex) quickSort(v, low, pivotIndex 
V3 
if (pivotIndex < high) quickSort(v, pivotIndex + 
1, high); 
} 


template <class T^ void quickSort(vector<T> & v) 
{ 


unsigned int numberElements = v.size (); 
if (numberElements > 1) 
quickSort(v, 0, numberElements - 1); 


} 


template <class T> 
unsigned int pivot (vector<T> & v, unsigned int 
start, 
unsigned int stop, unsigned int position) 
(//swap pivot with initial position 
swap (v[start], v[position]); 
7// partition values 
unsigned int low = start + 1; 
unsigned int high - stop; 
while (low « high) 
if (v[1ow] < v[start]) 
low++; 
else if (v[--high] < v[start]) 
swap (v[1ow], v[high]); 
// swap again pivot with initial element 
swap (v[start], v[--low]); 
return low; 
} 


void main() { 
vector<int> v(100); 
for (int i = 0; i < 100; i**) 
v[i] » rand(); 
quickSort(v); 
vector<int>::iterator itr = v.begin(); 
while (itr != v.end ()) { 
GoóuE << *itr << = "z 
itr++; 


} 


cout << "Xn"; 
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对 于 有 一 2m 十 1 个 元 素 的 数组 ， 其 中 位 数 是 排序 后 数组 的 中 间 元 素 ， 即 位 于 
2 的 位 置 。 如 果 数组 有 偶数 个 元 素 ， 我 们 选择 位 置 | T | 的 元 素 。 算 法 1 回顾 了 用 来 


计算 中 位 数 的 经 典 线性 时 间 递 归 算 法 (或 者 其 他 任何 使 用 基于 剪 枝 的 分 治 方法 得 到 的 排 
序 元 素 )。 这 些 选 择 算 法 称 为 顺序 统计 。 


Data: S a set of n = |S| number, k € N 
Result: Return the k-th element of S 
if n < 5 then 
// Terminal case of recursion 
Sort S and return the k-th element of 5; 
else 
Partition 5 in [$] groups; 
// The last group has 5 (complete) or n mod 5 
elements (incomplete) 
Compute recursively the group medians M = (mi, ..., mpi); 
// Calculate the pivot x as the median 
x «- SELECT(M, [41, L$); 
Partition S into two sub-sets L = [y € $ : y < x} and 
R={yeS$: y>x}; 
if k < |L| then 
| return SELECT(L, |L], k); 


else 
| return SELECT(R, n — |L], k — ILI); 
end 

end 





算法 1 用 递归 算法 SELECTOR REER ZER HER AIIE k PERC |A | 时 为 中 位 数 ) 


现在 我 们 对 快速 排序 进行 并 行 化 : 现 有 _P- 台 计算 机 ， 每 台 运 行 一 个 进程 ， 且 待 排 
序 的 数据 已 经 发 送 到 了 每 台 计 算 机 Pu，…，Pp-; 的 本 地 内 存 中。 我 们 要 对 每 台 计 算 


机 上 的 数据 排序 ， 最 终生 成 个 排 好 序 的 子 集 Xo，…，Xp-1， 每 个 子 集 的 大 小 为 方 。 


不 失 一 般 性 地 ， 我 们 假设 n 可 以 被 P 整除 : n mod P—0, 

MBOORVz;€ X;,, Vz; € X;. x; xz; h, E X; X,. Wit. MATE 
Xi，…，XPp_1i 都 是 无 序 的 。 快 速 排序 并 行 化 的 第 一 步 的 关键 思想 是 通过 交换 消息 来 
拆 分 各 进程 上 的 数据 使 得 在 拆 分 结束 时 ， 我 们 有 Xo 乏 … 委 Xp 。 一 个 直观 的 实现 方 
式 是 ， 首 先 随机 选择 主 元 z， 并 将 其 发 送 到 所 有 其 他 进程 中 。 然 后 每 个 进程 P, 使 用 该 
主 元 将 本 进程 上 的 数组 分 成 两 个 子 数组 X 和 和 X 。 下 一 步 ， 位 于 进程 集合 上 半 部 分 的 
进程 将 其 数组 X& 发 送 到 与 其 对 应 的 进程 p'— p—P/2<P/2 中 ， 并且 接 收 数组 XL. 
反之 亦 然 。 然 后 将 进程 分 成 两 个 集合 ， 并 在 每 个 集合 上 递归 地 调用 并 行 快速 排序 算法 。 
4-4 中 展示 了 该 算法 ， 用 Quicksorty// 表 示 ， 这 是 并 行 快 速 排序 的 简写 。 

要 注意 的 是 ， 具 有 logP 层 递归 调用 的 串 行 Quicksort 算法 会 生成 一 个 调用 函数 
树 ， 可 以 通过 打印 函数 堆栈 来 显示 该 树 结 构 。 串 行 快速 排序 算法 拆 分 数据 : Xo X< 
…<Xp_1 的 期 望 时 间 为 O(n log P)( 随 机 算法 ) ， 虽 然 数组 X; 尚未 排序 ， 但 是 对 于 所 
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选择 一 个 主 元 并 进行 广播 
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根据 主 元 对 本 地 存储 器 中 的 上 半 部 分 /下 半 部 分 
数据 进行 分 块 进程 组 交换 子 数组 






































进程 分 块 ， 选 择 主 元 , 广播 本 地 分 块 
P| <> ] A 
NE: |] 4L 1 
r= BS) al | 
交换 子 数组 最 后 一 阶段 :在 进程 组 上 递归 |， 
对 每 个 进程 的 子 数组 进行 本 地 排序 


图 4-4 并 行 快速 排序 过 程 示意 : 选择 一 个 主 元 并 广播 ， 根据 主 元 对 本 地 数据 分 块 ， 然 
后 对 应 的 进程 之 间 交 换 子 数组 ， 接 着 执行 递归 操作 。 需 要 注意 的 是 ， 由 于 主 元 
的 选择 不 同 ， 可 能 会 造成 分 块 后 子 数组 的 大 小 严重 不 平衡 


然后 剩 下 的 就 是 在 每 个 进程 内 部 使 用 一 个 合适 的 串 行 排序 算法 对 本 地 数据 排序 ， 
例如 串 行 快速 排序 或 者 串 行 妇 并 排序 。 
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以 下 是 我 们 对 并 行 快速 排序 算法 的 一 些 总 结 : 
© 上 半 部 分 的 进程 (进程 索引 大 于 P/2) 包 含 了 大 于 主 元 的 数据 ， 而 下 半 部 分 的 进 
程 ( 进 程 索 引 小 于 P/2) 则 包含 了 小 于 主 元 的 数据 。 

e 经 过 logP 次 递归 后 ， 每 个 进程 的 子 数组 与 其 他 所 有 进程 的 子 数组 都 不 相交 。 

。 对 于 所 有 的 1， 进 程 P; 中 的 最 大 元 素 小 于 等 于 进程 P;,+1 中 的 最 小 元 素 。 

e 在 递归 语句 返回 后 ， 每 个 进程 使 用 诸如 QuickSort 之 类 的 串 行 排序 算法 对 本 

地 数据 进行 排序 。 

Quicksort// 的 一 个 主要 缺点 是 每 个 进程 需要 处 理 的 数据 量 ( 子 数组 的 大 小 ) 可 能 
不 同 。 事 实 上 ， 每 个 进程 子 数 组 的 大 小 取决 于 在 分 割 进程 组 时 选择 的 主 元 。 图 4-4 JE 
示 了 这 一 负载 不 均衡 现象 ， 其 中 图 形 的 长 度 表 示 了 子 数 组 的 大 小 。 从 图 中 可 以 看 出 在 
排序 的 不 同 阶段 ， 子 数组 的 大 小 可 能 会 有 很 大 的 不 同 。 现 在 我 们 研究 两 个 以 负载 均衡 
为 核心 的 排序 算法 的 并 行 化 : 超 快 速 排序 算法 (Hyperouicksort) 和 基于 正则 采样 的 
并 行 排序 算法 (PSRS) 。 


4.5 超 快 速 排序 


在 超 快速 排序 (HyperQuicksort) 算 法 中 ，P 个 进程 首先 对 其 石 个 本 地 数据 进行 
串 行 排序 ， 时 间 复 杂 度 为 Oplog 户 )。 然 后 主 进程 从 其 已 排序 的 子 数组 中 选择 中 位 


数 (索引 为 亦 的 元 素 ) 作 为 主 元 。 这 个 “ 主 元 进程 "将 主 元 广播 给 同 组 的 所 有 其 他 进程 。 


其 他 进程 根据 主 元 将 本 地 数据 分 割 成 两 个 子 数组 X< 和 X> 。 之 后 的 过 程 与 Quick- 
sort// 类 似 : 进程 与 关联 进程 之 间 交 换 子 数组 上 半 部 分 和 下 半 部 分 的 数据 ， 并 且 在 每 
个 进程 中 ， 将 两 个 排 好 序 的 子 数组 合并 成 一 个 排 好 序 的 数组 (在 线性 时 间 内 完成 )。 最 
后 ,我 们 对 同 组 中 的 每 个 进程 递归 地 调用 超 快 速 排序 算法 。 图 4-5 展示 了 这 个 递归 超 
快速 排序 算法 。 

我 们 通过 以 下 假设 来 分 析 超 快速 排序 的 平均 时 间 复 杂 度 : 假设 列表 是 大 致 平衡 的 ， 通 


信 时 间 由 传输 时 间 ( 即 忽略 延迟 时 间 ) 决 定 。 初 始 时 调用 快速 排序 的 开销 是 O( 75 log 7 ) 
logP 次 归并 阶段 中 比较 操作 的 开销 是 O (五 logP)，logP 次 子 列表 交换 的 通信 开销 是 


O(plogP). 这 样 可 以 得 到 总 的 并 行 时 间 为 O( 五 logCP+z) )。 因 此 ， 我 们 得 到 的 最 优 


加 速 比 是 O(CP)( 在 无 延迟 和 子 列表 平衡 的 假设 下 ) 。 
在 之 前 的 分 析 中 ， 我 们 假设 了 每 个 进程 子 列表 的 大 小 是 大 致 平衡 的 。 但 是 在 真实 
程序 中 ， 很 难保 证 子 列表 大 小 的 平衡 ! 因此 我 们 介绍 最 后 一 种 并 行 排序 算法 。 该 算法 
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Pa [an 53, 95, 36, 67, 86, 44 | Pa | 35, 16, 81,1,44,23, 15,5 Py | 11,36, 44, 50, 53, 67, 86,95 1,5, 15, 16, 23, 35, 44, 81 
Ps | 97,48, 16, 8, 66, 96, 17, 49 | P, | 58, 76, 54, 39, 82, 47, 65,51 P P, | 39,47,51,54,58,65, 76, 82 
a) b) 








P, | 11.36, 44450, 53, 67, 86, 95 Ps} 1,5,15, 16, 23,35, 中 11,36, 44450, 53, 67, 86, 95 P; | 1,5, 15,16, 23, 35, 44. 
Ph 8,16, 17, E 49, 66, 96, 97 P, | 39, abs 58, 65, 76, 82 8,16, 17, 48] 49, 66, 96, 97 P, 1,54, 58, 65, 76, 82 


c) d) 


— ———— pu———————À1À1 
B | 49,06,96, 97, 50, 53, 67. 86, 4 Pa| 51,54, 58, 65, 76, 82, 81 P, |49,50, 53, 66, 67, 86, 95, 96, 97 Pa| 51,54, 58, 65, 76, 81, 81 
Py 8,11, 16,17, 36, 44, 48 P, | 1,5, 15, 16, 23, 35, 39, 44, 47 















39, 47, 





























P 5, 16, 17, 45, 11, 36, 44 P | 1,5, 15, 16, 23, 35, 44, 39, 47 








e) 











P, |49,50,53, o5 (s; )86, 95,96, 97) 3| 51, 54,58, 65, 76, 81,81 














P, 


8, 1, 6C 7)36, 44, 48 P | 1,5, 15, 16, 23,35, nan 


g) 


P, 76, 81, 82, 86, 95, 96, 97 51, 54, 58, 65, 49,50, 53, 66, 67 P, 76, 81,82, 86,95, 96, 97 Ps 49,50, 51,53, 54, 58, 65, 66, 67 
Py 8,11, 16, 17, 1,5, 15, 16 P, | 36,44, 48, 23, 35, 39, 44, 47 Po 1,5, 8, 11, 15, 16, 16, 17 P, | 23,35, 36, 39, 44, 44,47, 48 
i) J) 


Al 4-5 超 快速 排序 算法 示例 : a) 初始 化 ; DERETA: c) 根 据 48 分 割 数据 ; d) 在 进程 对 
间 进 行 子 列表 交换 ; e) 列 表 交 换 完成 ; f) 归 并 列表 ; g) 递 归 调 用 并 使 用 新 主 元 67 和 
17; bh) 分 割 数据 并 交换 ; 站 列表 交换 完成 ; j) 归 并 有 序 的 子 列表 














可 以 选择 更 合适 的 主 元 ,使 得 实际 应 用 程序 能 够 获得 一 个 良好 的 负载 均衡 。 算 法 的 名 
字 是 正则 采样 并 行 排序 (PSRS) 。 


4.6 正则 采样 并 行 排序 


正则 采样 并 行 排序 (Parallel Sort Regular Sampliing，PSRS) 算 法 有 四 个 步 又。 在 
这 里 ， 我 们 不 再 假设 进程 数 是 2 的 寡 次 方 ， 忆 可 以 取 任 意 自 然 数 。 接 下 来 介绍 PSRS 
的 四 个 步骤 : 

(1) 每 个 进程 P; 用 一 个 串 行 排序 算法 (比如 快速 排序 ) 将 其 本 地 数据 进行 排序 ， 然 
后 从 本 地 数据 中 选择 下 列 PP 个 规则 位 置 的 元 素 作为 采样 元 素 : 


dh 


'"p?'p?* d. p? 
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这 样 我 们 就 得 到 了 有 序数 据 的 一 个 规则 样本 。 

(2) 一 个 进程 收集 所 有 规则 样本 并 对 其 排序 ， 然 后 在 这 PXP 个 样本 中 选择 P 一 1 
个 主 元 并 广播 。 所 有 进程 根据 这 些 主 元 将 各 自 的 本 地 数据 划分 为 P 块 。 

(3) 每 个 进程 P, 保留 它 的 第 i 块 数据 并 将 第 j 块 数 据 发 送 给 进程 P;)，Vj 关 i。 这 
是 一 个 全 交换 (或 者 多 对 多 ) 汇 集 通信 原 语 。 

(4) 每 个 进程 将 其 己 个 分 块 数据 归并 成 一 个 有 序列 表 。 

图 4-6 系统 地 说 明了 在 一 个 给 定 的 简单 数据 集 上 PSRS 算法 的 工作 流程 。 


待 排序 数组 
| 9 [17] 6 [12] 3 [1s] 7] 14] 13] a |] [ie] 2| of 10] 8[ 1| 5 
A 
[3 [e [o hebs [v 4] [uis is e of 1 [ 2[ s [s ho 
uoc e EON I NP 
步 又 1: 本 地 排序 并 进行 正则 采样 


[o|2[s[4|s]9 [u [14]15| 
[4] u] Pssst 


步骤 2: 收集 并 选择 P-1 个 主 元 
4 n 


4 ui i u 
3 [e[» [gis j7] [4 [7 Jn Ts ha i [o [ 1] 2] s [o] 


步骤 3: 分 块 并 进行 全 交换 
P, 

[Ts] 

dum 















P, 
PE 
[Tune] 






P[s s [io] 


步骤 4: 将 P 个 子 数组 归并 成 一 个 有 序数 组 


^, @ 空 数组 








4 11 
o[1]2]3[4[s][e[7]8 [9 [10] 11 [12 [15 [14 [15 [16 [17] 
有 序数 组 


E 4-6 正则 采样 并 行 排序 (PSRs) 的 执行 示例 


接 下 来 我 们 分 析 该 排序 算法 的 复杂 性 : 每 个 进程 大 约 归并 态 个 元 素 ， 并 且 这 也 是 


在 实际 中 通过 实验 观察 到 的 经 验 值 ! 我 们 假设 这 些 进程 的 互联 网 络 具 有 已 并 发 通信 的 
能 力 。 因 此 ，PSRSs 不 同 阶段 的 开销 如 下 所 示 。 
© 本 地 计算 开销 : 


一 快速 排序 耗 时 : O( log 5). 
一 对 正则 样本 排序 : OCP?logP)。 
一 归并 子 列表 : O(plogP). 
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一 收集 样本 ,广播 主 元 。 
一 全 交换 oF). 


4.7 基于 网 格 的 排序 : ShearSort 


在 这 里 ,我 们 介绍 一 种 非常 适合 网 格 拓扑 的 简单 并 行 排序 算法 : ShearSort 并 
行 算法 。 在 最 后 阶段 ， 排 好 序 的 序列 可 以 在 网 格 上 逐 行 排序 ， 也 可 以 按 图 4-7 所 示 的 
蛇 形 模式 排序 。 令 P= 二 VP VP =n 表示 网 格 中 处 理 器 的 数量 。 


最 小 的 数字 





蛇 形 模式 





ro 


最 大 的 数字 
图 4-7 在 ShearSort 并 行 排序 结束 后 ， 有 序 元 素 以 蛇 形 模式 存储 
在 进程 网 格 上 排序 时 ， 我 们 可 以 交替 地 对 行 和 列 进 行 排 序 ， 直 到 经 过 logn 个 阶段 


之 后 得 到 一 个 有 序 序列 。 对 于 蛇 形 模 式 ， 我 们 只 需要 在 行 上 交替 排序 方向 (以 递增 顺序 
或 递减 顺序 ) 即 可 。 


现在 我 们 分 析 一 下 ShearSort 在 一 个 大 小 为 P=Vn XYn =n 的 二 维 网 格 上 的 复 
杂 性 。 对 Vvz 个 元 素 并 行 排序 的 时 间 为 O(CVz)， 由 此 我 们 可 以 得 到 并 行 时 间 是 tpar = 
OC Clogn) XVn) =OC/nlogn) 。 串 行 排序 算法 的 开销 是 ts 二 O(nlogn)。 因 此 我 们 得 到 


ty ni H4 79 =OWn) =OW/P), 这 个 加 速 比 并 不 是 最 优 的 ! 


par 


图 4-8 展示 了 对 于 给 定 的 输入 序列 ，shearSort 算法 的 不 同 阶段 。 





4.8 使 用 比较 网 络 排序 : 奇偶 排序 


我 们 现在 考虑 通过 比较 成 对 元 素来 进行 排序 。 首 先 引 入 一 个 排序 网 络 ， 称 为 奇偶 
换 位 (或 奇偶 排序 ) 排 序 网 络 。 其 主要 原理 依赖 于 冒 泡 排 序 算法 的 思想 。 该 算法 在 每 次 
迭代 中 需要 执行 两 个 阶段 ， 分 别 是 

。 奇数 阶段 : 比较 和 互 换 ( 交 换 ) 奇 数 对 元 素 
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行 排序 (交替 ) 列 排序 行 排序 ( 交替 ) 


4-8 ShearSort 算法 的 各 个 阶段 : 需要 logn 步 完 成 排序 


(X[0], XUD: CX[2], XLD, = 
e RANE: 比较 和 互 换 ( 交 换 ) 偶 数 对 元 素 : 
(XJ. XED: CX[3]. X[4]), - 
Aa SHS n STOR BEAT HEE KAARE n KAA Be A PT BGAN. E 4-9 fi 
述 了 比较 网 络 排序 算法 的 运行 过 程 。 
该 算法 可 以 用 C/C 十 十 编程 语言 实现 ， 代 码 如 下 : 


WWW source code: OddEvenSort.cpp 


// filename: OddEvenSort.cpp 
void OddEvenSort(int a[], int n) 
{ 
int phase, i; 
for (phase = 0; phase < n; phase++) 
if (phase $ 2 == 0) 
{// even stage 
for (i = ly i e'm à es 2) 
(1f (a[i-1] > alil) 
Swap(&a[i], &a[i-1]);) 
} 


else 
{// odd stage 
for (i = i; i < m-1; i += 2) 
{i£ (a[i] > ali+1]) 
swap(&a[i], &ali+1]);} 
} 
} 


我 们 可 以 通过 考虑 成 对 的 元 素 组 而 不 是 成 对 的 单个 元 素来 一 般 化 该 算法 。 每 个 进 
程 中 的 本 地 数据 为 一 组 ， 首 先 对 n/P 个 组 内 元 素 进 行 排序 (可 以 使 用 你 喜欢 的 串 行 排 
序 算法 ， 如 品行 快速 排序 )， 然 后 各 相 邻 进程 对 中 的 进程 发 送 和 接收 相应 的 元 素 。 进 程 


BAF Jt fr BER 91 


对 中 序号 较 小 的 进程 保留 一 半 的 较 小 元 素 ， 序 号 较 大 的 进程 保留 一 半 的 较 大 元 素 。 我 
们 将 这 个 基于 组 的 奇偶 迭代 过 程 重复 已 次 。 这 样 就 可 以 通过 改变 P 的 取 值 来 调整 并 行 
粒度 ， 其 取 值 范围 是 从 P==n( 细 粒度 并 行 度 ) 到 P= 二 2( 粗 粒度 并 行 度 )。 请 注意 ， 该 算 
法 可 以 很 容易 地 实现 。 图 4-10 说 明了 该 算法 的 不 同步 又 。 


输入 ss| 2 [as fn] 
TENANE 
k R A TREN 
awe [o] wD»[v[u| 9 
SA ww 
wo [wo] sn [wa] 
Nass AA ead 


een [eT Te w]e] 
eu NL Uf 

es [ss sess] 

Meu Ra A 


图 4-9 通过 奇偶 交换 进行 排序 : 它 需 要 n 次 奇偶 迭代 来 生成 一 个 有 序 序列 











P, : P, P, P, 
初始 状态 。 | | 

1519.6 | || 31487 |i] 461210 |; 
对 本 地 数据 排序 后 

9.11.15,16 |: | 3.7.8.14 ||| 461012 | || 1,2,5,13 
阶段 1 ( 奇 ) | i : 

3,7,8,9 pe 11,14,15,16 | : = 6,10,12,13 
WE (BO | : 

3789 | | 1245 f 11,14,15,16| : | 6,10,12,13 
阶段 3 ( 奇 ) | : i 

1,2,3,4 je 5,7,8,9 | || 6,10,11,12 j+» 13,14,15,16 
阶段 4( 偶 ) 

1234 | ;| 5678 fer 9,10,11,12 | ; | 13,14,15,16 


排序 完成 ! 


图 4-10 将 奇偶 对 排序 算法 推广 到 奇偶 组 排序 。 并 行 粒 度 取决 于 存储 在 进程 本 地 内 存 中 
的 数据 的 大 小 
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现在 我 们 分 析 一 下 这 个 基于 组 的 奇偶 排序 算法 的 复杂 性 : 初始 时 的 串 行 排序 


需要 O( plos 5 ) 来 排序 名 个 组 内 元 素 。 然 


后 ,执行 P 次 迭代 ， 在 每 次 迭代 中 通过 


排序 将 较 小 值 和 较 大 值 区 分 开 ， 每 次 迭代 的 时 间 为 O( 户 )( 通 过 归并 列表 并 为 每 个 


进程 保留 右 半 部 分 )， 并 且 向 每 个 进程 发 送 O( 石 ) 个 元 素 。 在 忽略 通信 的 延迟 之 


后 ， 我 们 可 以 得 到 总 的 时 间 复 杂 度 为 O(log pn). AAIEN, 


把 该 算法 应 用 到 双向 环形 拓扑 (bidirectiona 
又 会 是 怎样 的 。 


4.9 使 用 比较 网 络 合 并 有 序列 表 


根据 一 个 比较 -交换 块 ， 我 们 可 以 构建 一 


l ring topology) 通 信 网 络 上 时 ， 其 复杂 度 


个 定制 电路 来 实现 排序 算法 。 图 4-11 di 


述 了 这 些 电 路 的 基本 元 素 : 比较 -交换 块 。 如 图 4-12 所 示 ， 我 们 可 以 用 一 个 基于 硬件 
实现 的 比较 网 络 对 两 个 已 排序 的 子 列 表 进 行 排序 。 因 此 ， 可 以 按 图 4-12 所 示 递 归 地 构 


建 一 个 物理 比较 网 络 。 


比较 -交换 块 的 输入 为 两 个 数 ， 


E 4-11 





有 序 序列 1 


2 


3 


max(a,b) 


min(a,b) 


输出 是 输入 元 素 的 最 大 值 和 最 小 值 











用 MergeSort 


进行 排序 
偶数 


用 MergeSort 
进行 排序 
偶数 








图 4-12 用 于 归并 两 个 有 序 子 列表 (顶部 ) 的 比较 网 络 ， 该 网 络 是 由 基本 的 比较 -交换 块 (底部 ) 


递归 地 建立 
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4. 10” 双 调 归 并 排序 


最 后 ， 为 了 总 结 本 章 的 并 行 排序 ， 我 们 介绍 由 Ken Batcher? 首先 提出 的 双 调 归并 
排序 算法 。 如 果 一 个 序列 是 单 峰 序列 ( 即 具 有 唯一 的 极 值 点 )， 通 过 考虑 循环 序列 让 它 
成 为 最 小 值 或 最 大 值 ， 从 而 成 为 双 调 序列 。 现 在 ， 我 们 可 以 有 效 地 在 一 个 双 调 序列 中 
在 对 数 时 间 内 用 一 个 二 分 搜索 算法 搜索 一 个 元 素 。 为 了 获得 一 个 双 调 划分 ， 我 们 需要 
经 过 以 下 处 理 : 

。 将 列表 上 半 部 分 的 每 一 个 元 素 与 列表 下 半 部 分 的 元 素 相关 联 : riori. 

© 比较 这 些 元 素 对 并 对 它们 进行 排序 ， 因 此 它们 按照 (最 小 ， 最 大 ) 顺 序 进行 排序 。 

。 因此 ， 上 半 部 分 列表 的 每 个 元 素 都 通过 构造 来 保证 小 于 下 半 部 分 列表 的 所 有 元 素 。 

© 分离 之 后 的 两 个 列表 都 是 长 度 为 -3 的 双 调 序列 。 

。 需要 注意 的 是 ， 该 比较 序列 在 语义 上 不 依赖 于 数据 。 该 属性 对 于 归并 排序 算法 
而 言 是 非常 重要 的 ， 它 的 行为 取决 于 数据 的 语义 。 

因此 ， 我 们 得 到 一 个 二 分 划分 ， 并 获得 两 个 双 调 序列 B, AB, 作为 输出 ， 使 得 B, 
的 元 素 都 小 于 By 的 元 素 。 递 归 的 极端 情况 是 当 我 们 有 一 个 单个 元 素 的 序列 ， 在 这 种 情 
况 下 ， 它 是 一 个 有 序 的 双 调 列表 ! 图 4-13 显示 了 该 算法 的 工作 流程 。 在 图 4-14 中 展 
示 了 双 调 排序 的 示例 。 


双 调 序列 











X | 
SS T EESUE: pM — Mu 
双 调 序列 双 调 序列 
双 调 序列 分 开 成 两 份 ” 通 过 取 最 小 值 和 最 大 值 


我 们 获得 两 个 双 调 序列 
图 4-13 项 部 使 用 比较 -交换 块 比较 元 素 x; 和 zi+wz 将 一 个 双 调 序列 拆 分 成 两 个 双 调 序 
列 。 底 部 是 一 个 直观 的 视觉 证 明 ， 通 过 对 这 两 个 子 序 列 取 最 小 值 和 最 大 值 ， 
我 们 确实 获得 了 两 个 双 调 序列 


C  http://en. wikipedia. org/wiki/Ken_Batcher. 
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我 们 分 析 双 调 归并 排序 的 复杂 性 : (1) 每 个 双 调 划分 进行 款 次 比较 (2) 我 们 进行 


log n 次 递归 的 双 调 序列 分 裂 ;(3) 进 行 log n 次 双 调 序列 归并 。 因 此 ， 比 较 交 换 基 本 操 
作 的 总 数 为 O(n log? n)。 图 4-15 显示 了 使 用 比较 网 络 实现 的 双 调 排序 算法 。 


3 5 8 9 7 4 2 1 


比较 
和 交换 














SAA) CU Wo of 

2 1/3 4/7 sls 9 

ASP | AS | KSA IAS aA 

1 2 3 4 S, 7 S8 9 Bf (FR) 
有 序 序列 


图 4-14 将 双 调 序列 分 割 为 子 序列 的 递归 调用 


ab 


max(a,b) min(a,b) 





图 4-15 对 于 双 调 排序 的 比较 网 络 : 网 络 是 静止 的 而 且 不 依赖 于 输入 数据 。 无 论 是 排列 
一 个 有 序 序列 还 是 一 个 反 序 序列 ， 可 以 得 到 相同 的 运行 时 间 
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4.11 注释 和 参考 


文献 [ 3] 中 介绍 了 著名 的 并 行 排 序 算法 。 针 对 超 立 方 体 的 复杂 度 为 O(logn 
(log logn)?) 的 排序 方法 在 文献 [4] 中 得 到 深入 研究 。 即 使 在 real 一 RAM 模型 上 的 排序 
有 一 个 著名 的 下 界 OX log n)， 我 们 观察 到 在 实践 中 几乎 已 经 很 容易 地 去 排列 部 分 有 
序 的 序列 : 因此 ,我们 宁愿 寻找 自 适应 算法 器 进 行 排序 ， 把 其 他 输入 参数 考虑 在 其 
中 ， 以 便 在 实际 情况 中 更 有 竞争 力 ， 并 且 在 最 差 的 情况 下 产生 Ol log 70 3E A 
复杂 度 (unadaptive complexity). 


排序 中 的 基本 原 语 是 给 定 一 对 元 素 产生 有 序 对 作为 输出 的 比较 操作 : 
比较 过 





(a, b) (min(a, b), max(a, b)) 

可 以 通过 将 A 和 B 作为 元 素 群 组 来 选择 并 行 性 的 粒度 ， 而 不 再 是 单个 元 素 。 那 么 
操作 A<B 意味 着 对 A UB 进行 排序 ， 并 返回 元 素 对 (A'，B')， 其 中 A 为 有 序 元 素 的 
前 半 部 分 ， 而 B 为 有 序 元 素 的 后 半 部 分 。 因 此 ， 我 们 可 以 为 并 行 算法 构建 排序 网 络 ， 
通过 调整 基本 排序 比较 -交换 原 语 的 群 组 大 小 来 控制 并 行 粒度 。 


4. 12 总结 


存在 大 量 的 串 行 算法 可 以 对 nn 个 数 进行 排序 ， 并 达到 6 log nn) 的 最 优 时 间 复 杂 
度 。 通 过 考虑 本 地 排序 的 粒度 ， 我们 可 以 在 分 布 式 内 存 的 并 行 架构 上 进行 排序 。 快 速 
排序 算法 随机 选择 其 主 元 ,并 且 可 以 直接 并 行 化 ， 但 是 进程 会 产生 不 平衡 的 工作 负载 
( 即 不 具有 很 好 的 平衡 属性 )。 为 了 克服 这 个 不 足 ， 超 快速 排序 算法 在 选择 主 元 之 前 对 
本 地 数据 进行 排序 。 正 则 采样 并 行 排序 (PSRS) 算 法 甚至 更 好 ， 在 两 个 阶段 同时 选择 多 
个 主 元 以 便 在 所 有 进程 中 获得 公平 的 工作 负载 。 排 序 也 可 以 使 用 比较 网 络 在 硬件 中 执 
行 ， 我 们 可 以 在 评估 比较 操作 时 通过 采用 一 组 数据 而 不 是 单个 数据 元 素 在 并 行 计算 机 
上 进行 模拟 。 这 人 允许 我 们 调整 并 行 粒 度 。 


4.13 ”练习 


练习 1( 组 内 ShearSort) 通过 考虑 每 个 节点 上 包含 -个 元 素 组 ， 在 网 格 上 推广 shearsort 算 


法 。 这 个 算法 的 复杂 度 是 多 少 ， 加 速 比 是 多 少 ? 提供 算法 的 MPI 实现 。 
练习 2 (用 MPI 对 超 快 速 排 序 编 程 ) 用 伪 代 码 写 出 超 快速 排序 的 算法 。 当 我 们 假设 n 个 元 素 中 
只 有 k 个 不 同 的 元 素 时 会 发 生 什 么 ， 其 中 kn? 
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并 行 线性 代数 


51 分 布 式 线性 代数 


5.1.1 数据 科学 中 的 线性 代数 


在 算法 领域 ， 有 多 种 多 样 的 算法 是 与 线性 代数 相关 的 。 在 计算 机 科学 中 ， 我 们 普 
遍 使 用 数值 线性 代数 算法 来 进行 计算 ,但 我 们 并 不 需要 实现 这 些 算法 ， 因 为 通常 都 会 
有 专门 的 软件 库 来 实现 这 些 算法 ， 这 些 软件 库 能 够 隐藏 算法 实现 和 优化 的 烦琐 细节 ( 主 
要 是 矩阵 算术 运算 和 和 抢 阵 分 解 操 作 ) 。 这 些 矩 阵 软件 库 包 含 了 常见 的 乘积 运算 、 各 种 矩 
阵 分 解 方法 (如 奇异 值 分 解 等 ) 以 及 矩阵 分 解 库 ， 如 LU 分 解 或 CholeskyL' L 因 式 分 解 
等 。 我 们 在 大 多 数 科学 领域 都 可 以 找到 这 些 核心 线性 代数 技术 。 数 据 科 学 (DS) 领 域 也 
不 例外 ， 并 且 在 很 大 程度 上 依赖 于 如 下 三 大 类 线性 代数 原 语 的 有 效 实 现 : 

。 聚 类 。 我 们 在 数据 集中 寻找 同 构 的 数据 一 一 在 数据 探索 中 ， 这 是 一 个 类 别 发 现 

的 过 程 ， 也 称 为 无 监督 分 类 。 

。 分 类 。 给 定 一 个 训练 集 ， 且 其 中 的 数据 都 已 标注 好 所 属 的 类 别 。 我 们 尝试 使 用 
分 类 器 来 对 未 标注 的 数据 进行 标注 。 即 ， 我 们 需要 预测 一 个 离散 类 变量 的 值 。 
。 回归。 给 定 一 个 数据 集 和 定义 在 该 数据 集 上 的 一 个 函数 ， 我 们 想 要 得 到 一 个 可 
以 解释 该 数据 集 的 最 佳 函 数 模 型 ， 从 而 可 以 利用 该 函数 模型 通过 插值 或 预测 的 
方法 计算 新 的 数据 。 一 般 来 说 ， 回 归 是 一 种 可 以 研究 变量 与 另 一 个 变量 之 间 关 

系 的 机 制 。 
图 5-1 展示 了 这 三 个 基本 问题 。 
现在 我 们 简要 地 回顾 一 些 数学 知识 ， 巩 固 一 下 线性 回归 建 模 的 概念 : 我 们 需要 预 


d 

WAR f(z) 一 房 十 >)Bz; 在 zx 处 对 应 的 值 y=.F(z)， 这 是 一 个 线性 ( 仿 射 ) 函数 (几何 
i=l 

上 表示 为 超 平面 )。 首 先 ， 我 们 通过 增加 一 个 额外 坐标 zp = 1 来 提升 数据 的 维度 ， 然 后 
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图 5-1 数据 科学 中 学 习 的 三 大 支柱 : 聚 类 (平面 或 层次 ) 、 分 类 和 回归 
将 求解 函数 系数 的 过 程 统 一 为 一 个 点 积 (dot product), Bl r(x, 1), H f(x) = 


d 
> bix: = xig (需要 计算 d 十 1 个 系数 ) 。 给 定 一 个 由 观测 点 构成 的 集合 (Gn ,yi)，…， 
i=0 
G,.»,2) € 民 < ,我 们 需要 通过 最 小 化 残 差 平方 和 (Residual Sum of Squares，RSS) 的 
方法 来 拟 合 一 个 最 佳 函数 模型 
B= vii (y; — [go 
B i=l 

PTR LR. oA TERI SE = BRK nXCG TT DIEIBE X. — A n 
维 的 列 向 量 y 和 超 平面 参数 向 量 8) 来 估计 d 十 1 维 ( 见 图 5-2)。 我 们 给 出 残 差 平方 和 
AX: 

RSS(p) = 5 Cy; — zpi = (y— XB)" G— Xp) 
i=l 
通过 计算 梯度 VsRSS(8)( 偏 导数 向 量 )， 我 们 得 到 一 个 正规 方程 (normal equation) : 


X'(y— XB) = 0 
MOX'XdÓEZPEREI. FT AT i+ Penrose-Moore {hid kg EK IRS 8 的 最 小 二 乘法 
估计 有 : 








[人 





Ep X'-OU Xx) INT 
我 们 用 开源 软件 SciLab? 进行 数值 计算 ,可 以 很 容易 地 展示 对 噪声 观测 集 进行 线 
性 回归 拟 合 的 过 程 : 





© 可 以 在 http;//www. scilab. org/ 上 免费 获取 。 
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IAP tbx 

y 的 预测 什 
J=fx) 





图 5-2 使 用 线性 回归 拟 合 出 一 个 线性 模型 ， 即 通过 最 小 化 残 差 平方 和 的 方法 ， 为 数据 
集 构造 一 个 仿 射 方程 ( 仿 射 方程 表示 一 个 超 平面 ， 在 2D 中 ， 表 示 一 条 线 ) 


图 5-3 显示 了 该 SciLab 代码 片段 生成 的 输出 。 


40 





-30 -25 -20 -15 -10-5 0 5 10 15 20 25 30 


图 5-3 由 噪音 观测 集 计 算出 的 普通 线性 回归 示例 


那么 如 何 测量 观测 数据 到 模型 的 误差 呢 ? 在 普通 的 最 小 二 乘法 拟 合 中 ， 我们 考虑 
了 垂直 投影 误差 ， 可 以 看 到 最 小 化 会 生成 一 个 闭合 公式 (closed-form formula)， 该 公 
式 包含 了 和 矩阵 运算 (XTX) !X" 和 一 个 矩阵 -向 量 乘积 Xi y。 另 一 个 测量 误差 的 方法 是 
计算 观测 数据 与 预测 值 之 间 的 正 交 投影 距离 的 平方 ， 这 种 方法 称 为 全 回归 (total re- 
gression) 或 全 局 最 小 二 乘法 (total least squares method), Al 5-4 说 明了 线性 回归 拟 
合 中 垂直 投影 与 正 交 投影 之 间 的 差异 。 全 局 最 小 二 乘法 的 计算 相对 来 说 更 为 复杂 ， 因 
为 还 没有 一 个 能 够 直接 求解 的 简单 闭合 解 。 

回归 同样 也 可 以 用 于 分 类 ， 但 这 部 分 内 容 超出 了 本 书 的 范围 。 


5.1.2 经 典 线性 代数 
传统 的 线性 代数 考虑 的 是 列 向 量 〈 不 是 行 向 量 ， 行 向 量 是 转 置 后 的 向 量 ): 
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图 5-4 展示 了 普通 回归 和 全 回归 之 间 的 差异 : 全 回归 〈 全 局 最 小 二 乘法 ) 的 目标 是 
将 观测 数据 到 模型 超 平面 的 正 交 投影 距离 的 平方 最 小 化 ， 而 普通 回归 (普通 
最 小 二 乘法 ) 是 试图 将 观测 数据 到 模型 超 平面 的 垂直 投影 距离 的 平方 最 小 化 


在 线性 代数 领域 ， 存 在 着 许多 类 型 的 矩阵 ， 例 如 /Xec 维 的 稠密 矩阵 (这 种 矩阵 需 
XO (lc) 的 内 存 空 间 来 存储 所 有 系数 ) SE CO (1) 的 内 存 空 间 ) 、 三 对 
角 和 矩阵 、 对 称 矩 阵 、 对 称 正 定 矩阵 (该 矩阵 经 常 出 现在 统计 学 中 ， 作 为 协 方差 或 精 
EOE), SAER EZAR), Toeplitz? sip. RE (需要 o (lc) 的 
内 存 空 间 来 存储 一 些 新 的 非 零 系 数 ) F. pp HOMBRE (以 及 标量 ) 都 是 张 量 的 特殊 情 
BL 〈 将 线性 代数 扩展 到 多 重 线性 代数 ) 。 最 基本 的 线性 代数 运算 是 加 法 和 乘法 。 现 在 我 
们 考虑 令 方 阵 和 列 向 量 的 维度 为 /二 c==d。 两 个 向 量 之 间 的 标量 积 的 定义 如 下 : 


d 
(usu) = Sly =u’ Xv 
{=l 


标量 积 的 时 间 复 杂 度 为 线性 时 间 O (d). 

矩阵- 向量 的 积 y— Ax 需要 平方 时 间 O Ca^). 

-矩阵 -矩阵 的 积 〈 或 简称 矩阵 乘积 ) M=M, XM, 需要 三 次 方 时 间 O (GP). 

到 目前 为 止 ， 人 们 还 没有 找到 矩阵 乘积 的 最 优 复杂 度 ! 这 一 直 是 理论 计算 机 科学 
领域 最 古老 且 最 难 解决 的 问题 之 一 。 例 如 ， 早 期 算法 之 一 的 Strassen 算法 击败 了 三 次 
方 复 杂 度 的 简单 算法 ， 将 复杂 度 缩减 到 了 O (d) =0 (91998 9? 1) 次 乘法 计算 。 
该 算法 依赖 于 矩阵 块 分 解 和 乘法 次 数 最 小 化 〈 加 法 操作 能 够 快速 执行 ， 因 此 ， 相 对 于 
最 小 化 加 法 次 数 ， 最 小 化 乘法 次 数 更 有 实际 意义 )。 迄 今 为 止 最 好 的 和 矩阵 乘积 算法 是 
Coppersmith and Winograd 算法。 其 复杂 度 为 O (n 3728639) 

许多 矩阵 分 解 算法 ,包括 LU (Lower Upper) 分 解 ， 都 已 经 在 最 著名 的 线性 代数 


OQ 一 个 矩阵 是 正定 当 且 仅 当 Y zx 关 0，zx' Mz> 二 0。 正 定 和 矩阵 的 特征 值 都 为 正 。 
O 用 术语 解释 ， 精 度 窍 阵 是 协 方差 窍 阵 的 逆 矩 阵 。 
© ”如果 在 一 个 矩阵 中 ,每 条 对 角 线 中 的 元 素 是 相同 的 ， 则 称 该 矩阵 为 Toeplitz 矩阵 。 


PSG 并 行 线性 代数 101 








库 中 实现 了 : BLASS 代表 了 基本 线性 代数 子 程序 (Basic Linear Algebra Subroutines), 
根据 程序 的 复杂 性 ，BLAS 将 原 语 组 织 成 了 几 个 层次 。 在 C 十 十 中 ,我 们 可 以 用 
boost ublase 库 来 高 效 地 处 理 和 矩阵 。 

FER HR. 我 们 要 介绍 几 个 在 环形 拓扑 或 环 面 拓 扑 上 实现 的 乘法 原 语 经 典 算法 。 


5.1.3 Z$BPE-[B BRE: y=Ax 


矩阵 -向 量 乘 法 的 计算 形式 是 y 一 AXz， 其 中 A 是 d Xd HEME. x 是 d 维 列 向 
量 。 列 向 量 y 可 以 按 如 下 方式 计算 : 


d 
= dosi 
每 个 y; 独立 于 其 他 yi 且 仅 依赖 于 向 量 x RA 中 的 一 行 。 因此， 所 有 y; 可 
以 同时 独立 地 计算 。 根 据 这 一 重要 的 观察 ,我们 可 为 矩阵 乘法 设计 多 种 并 行 方法 ， 称 
之 为 独立 标量 乘法 : 
y; = (aj,x) 
其 中 a; 表示 矩阵 A 中 的 第 i 行 。 
在 分 布 式 内 存 架 构 上 ， 我 们 使 用 .P 个 进程 对 矩阵 -向 量 乘法 并 行 化 。 首 先 为 每 个 


进程 分 配 矩 阵 A Wp ti 这 样 我 们 便 对 问题 进行 了 划分 (使 用 MPI 广播 原 语 )， 然 后 每 


个 进程 在 本 地 计算 万 个 标量 积 (每 个 进程 都 包含 向 量 工 的 数据 )， 最 后 我 们 将 这 些 结果 


合并 (使 用 MPI 归 约 操作 ) 得 到 向 量 y。 在 环形 拓扑 上 ,不久 将 会 出 现 另 外 一 种 方法 ， 
该 方法 首先 将 x 的 数据 分 块 ， 然 后 沿 着 有 向 环 循环 地 人 处理 每 块 数据 。 

向 量 -矩阵 乘法 非常 适用 于 图 形 处 理 器 单元 (GPU) 架 构 ( 使 用 通用 GPU 编程 ， 或 
简称 GPGPU). GPU 可 用 于 高 性 能 计算 ， 但 必须 注意 是 否 支 持 IEEE 754 浮 点 运算 ， 
以 确保 数值 计算 在 各 种 机 器 上 的 一 致 性 。 我 们 和 希望 GPU 代码 运行 得 更 快 ， 并且 其 数值 
结果 与 较 慢 的 CPU 实现 的 数值 结果 相同 。 

在 开始 介绍 几 种 基于 拓扑 的 矩阵 乘法 之 前 ,我 们 首先 介绍 在 处 理 器 的 本 地 内 存 中 
几 种 重要 的 矩阵 数据 划分 方法 。 


5.1.4 并 行 数据 模式 


HPC 的 一 个 主要 优势 是 可 以 将 大 量 的 数据 通过 划分 分 配 到 每 个 机 器 的 本 地 内 存 中 。 那 
么 我 们 感 兴趣 的 是 一 些 特定 类 型 的 算法 ， 这 些 算 法 让 每 个 节点 对 本 地 数据 进行 计算 ， 并 且 
使 得 处 理 器 之 间 的 数据 通信 开销 最 小 。 我 们 可 以 将 数据 分 块 和 传输 划分 为 几 个 不 同 的 模式 。 
例如 ， 我 们 有 列 块 模式 (block-column pattern) 或 循环 列 块 模式 (cyclic block-col- 





http://www. netlib. org/blas/. 


© http://www. boost. org/doc/libs/1_57_0/libs/numeric/ublas/doc/ 。 
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umn pattern)， 并 用 4b 表 示 块 的 宽度 ， 通 常 为 万。 图 5-5 展示 这 种 数据 模式 ， 该 模式 通 


常用 于 环形 拓扑 的 线性 代数 计算 中 。 类 似 地 ， 当 考虑 矩阵 转 置 时 ， 我 们 有 行 块 模式 
(row- block pattern) 和 循环 行 块 模式 (cyclic row-block pattern), ， 与 之 前 的 列 块 模式 和 
循环 列 块 模式 相对 应 。 

在 二 维 网 格 或 环 面 拓扑 中 ， 我 们 更 喜欢 棋盘 模式 (checkerboard pattern): 我 们 有 二 维 
块 模式 (2D block pattern) 或 循环 二 维 块 模式 (cyclic 2D clock pattern)， 如 图 5-5 所 示 。 


















“二 维 行列 分 块 二 维 循环 行列 分 类 
图 5-5 几 种 数据 分 块 方式 ， 用 于 将 数据 分 配 到 处 理 器 的 本 地 内 存 中 。 可 以 根据 底层 
拓扑 结构 来 选择 不 同 的 分 块 方式 : 一 维 列 分 块 适 用 于 环形 拓扑 ， 二 维 棋盘 分 

块 适用 于 二 维 网 格 或 环 面 拓扑 


对 于 使 用 一 维 列 块 模式 的 稠密 矩阵 ， 我 们 重新 考虑 它 的 矩阵 -向 量 乘法 。BLAS 中 
的 一 个 基本 操作 是 矩阵 -向 量 积 的 累加 和 : 
ys yc Ax 


4 AGC RARAIN AT Xn 的 行 块 矩 阵 ， 初 始 时 存储 在 处 理 器 P; 中 。 为 了 执行 乘法 


操作 > 一 Az， 我 们 首先 广播 z( 一 种 MPI 散 播 操 作 ) ， 使 得 每 个 处 理 器 接收 到 自己 的 子 
向 量 x(i)， 然 后 每 个 处 理 器 执行 本 地 计算 : yO SAGX., RA. HUAI 
通信 调用 将 y 的 所 有 子 向 量 聚 集成 一 个 完整 的 向 量 y. 

和 矩阵 乘积 并 行 算法 的 选择 依赖 于 多 个 因素 ， 包 括 所 选择 的 模式 、 底 层 互联 网 络 的 
拓扑 结构 和 汇集 通信 的 类 型 。 

我 们 首先 考虑 环形 拓扑 上 的 向 量 - 和 矩阵 乘积 ， 然 后 介绍 几 个 经 典 的 环 面 拓扑 上 的 拢 
阵 - 和 矩阵 乘积 。 


5.2 有 向 环 拓 扑 上 的 矩阵 -向 量 乘积 


4 A 表示 一 个 维度 为 (2，z) 的 矩阵 ，z 表示 一 个 有 ?7 个 系数 (索引 从 0 到 7 一 1) 的 
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列 向 量 : 








我 们 想 用 忆 个 处 理 器 在 环形 拓扑 上 计算 矩阵 -向 量 乘积 y AX x. XS —r€ N. 


如 前 所 述 ， 和 矩阵 -向 量 相 乘 可 以 转换 为 个 标量 积 。 因 此 ， 我 们 可 以 使 用 两 层 酝 套 循环 
在 平方 时 间 内 完成 敌阵 -向 量 相 乘 : 


for (iz0; ixn; i++) { 
for (js0r den; Ter) ( 
ylil = yIilsaIilTL3l*of4]:; 
// we can also write as 
// yli] += a[illil*x[j] 
) 
) 


在 获得 了 一 个 复杂 度 为 OG ) 的 算法 之 后 。 我 们 可 以 用 单 指令 多 数据 (SIMD) 范 式 

对 该 算法 进行 并 行 化 : 
y= a[i.]' x 

在 现代 处 理 器 上 (例如 ， 通 过 使 用 Intel SSE@ 指 令 集 ) 我 们 可 以 很 容易 地 对 该 操作 
进行 优化 。 我 们 可 以 将 Ax 的 计算 分 解 成 n 个 标量 积 ， 然 后 广播 到 P 个 进程 上 进行 计 
算 : 每 个 进程 P; 在 内 存 中 保存 了 和 矩阵 A 的 r= 二 n/P 行 。 处 理 器 P; 包含 了 和 矩阵 的 第 ir 
行 到 Gi 十 1)r 一 1 行 ， 以 及 向 量 x Aly 中 相应 的 部 分 。 因 此 ， 所 有 输入 数据 和 结果 均匀 
地 分 布 在 了 环节 点 的 本 地 存储 器 中 。 我 们 使 用 矩阵 A 的 行 块 模式 来 进行 数据 分 块 。 现 
在 我 们 用 一 个 P —2 个 节点 的 简单 环 来 说 明 计算 过 程 : 我 们 选择 ~ 二 1， 然 后 对 n= 
rP=2 维和 矩阵 /向 量 进行 局 部 计算 。 和 矩阵 向 量 积 > 一 Az 按 如 下 方式 计算 : 


M 网 | M 
= X 
Ng 42,1 42,2 T2 
| ni pui 
Ya 45, X, + 42,242 
在 这 种 情况 下 ,我 们 需要 考虑 如 何 让 数据 在 环 上 反 向 传递 ( 即 按 顺 时 针 方向 ， 


CW) 以 便 能 按 如 下 步骤 进行 本 地 计算 。 
e HH, x; 在 P; 上， 我 们 计算 : 


M [ea 21] Har ae 
214 2y + [aaa 22| 


* 第 二 步 ， Xj 在 Piymoap 上 ， 我 们 计算 : 
P [aia a + fa as] 
[ee 23] + aoa x 


F? 


| 2 
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一 般 情况 下 ， 我 们 让 z 的 子 向 量 (大 小 为 记 一 7 ) 在 环 上 传递 ， 然 后 在 本 地 计算 乘 


积 ， 并 将 计算 结果 累加 到 向 量 y 上 。 乘 积 采 用 如 下 方式 进行 块 分 解 ( 块 大 小 为 万 二 7): 
I 
P 
Xp 


在 第 0 步 ， 我 们 首先 初始 化 y0, REER P ACT BERE ADA rX 5 x HFA 
量 相 乘 ， 并 将 结果 累加 到 y 的 对 应 子 向 量 上 。 图 5-6 展示 了 这 一 过 程 。 为 了 阐明 该 算 


A 


X] 











Ap 








Tı 


我 们 用 X 表示 块 向 量 : X= 








法 ， 我 们 选择 n=8, P—4, dd mi 























TEE 
一 
[i 

















[*] 


M [x Yi Ata x Xa Aux Xi 
[hs A 

Wee) — [x 
AA [n 


Xs 
X3 Yi = Aj X Xs + Ara X Xa A x Xi 








Em ; 


























Xa || ¥i=Aya x Xo + Ars x Xs + Arg X Xa Aya Xx X 














图 5-6 在 有 向 环 拓扑 上 通过 块 划分 计算 矩阵 -向 量 积 Y 一 AXX 的 过 程 





首先 将 y 初始 化 为 零 向 量 ， 并 将 矩阵 A 和 向 量 xz 中 的 数据 按 如 下 方式 分 配 到 各 进 


程 中 : 


pus CQ0,1 0,2 
0 


CQ0,3 
Q1.3 
42,3 


43,3 





P; 


7,9 47,1 47,2 





4.3 
5,53 
46,3 


a7,3 


47,4 


85,5 


7,6 


PIE HERK 


在 每 个 阶段 开始 时 ， 我 们 让 x 的 子 向 量 在 环 上 轮转 ， 然 后 每 个 进 
块 矩 阵 - 向 量 乘 积 ， 然 后 将 结果 加 到 对 应 的 y 的 子 向 量 上 。 
© 步骤 1， 计 算 本 地 矩阵 义 块 向 量 : 


[20.0 aj,ı 40.2 
Po 


jo ai ie 


42,0 42,1 82,2 
Pi 
[23,0 43,1 95,7 





Q7.0 47,1 47,2 


29,0 40,1 0,2 
Py 


Qi,0 41, 41,2 


。 步骤 2， 计 算 本 地 乘积 : 





40,3 U0,4 20.5 0,6 
41.3 Qj, 41,5 41,6 
42.3 42,4 42,5 42,6 
83,3 43,4 43,5 43,6 
Q4,3 94,4 84,5 4,6 
5,3 95,4 45,5 45,6 
46,3 96.4 46,5 46,6 
a7,3 47,4 97,5 87,6 
do,3 40,4 40,5 40,6 
41.3 CI 41,5 21,6 
42,3 42,4 42,5 42,6 
43,3 43.4 43,5 43,6 
44,3 44,4 44,5 24,6 
45,3 45,4 45,5 45,6 
45,3 46,4 46,5 46,6 
97.3 47,4 47,5 47,6 





85,7 [2 
87,7 Labs 
rail [**] 
41,7 | +27 
| [= 
C3.7 | -X1 
M ld 
5,7 | -X3 
"d [**] 
47,7 | -T5 


计算 它 的 本 地 
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Un,0 
Py 

1,0 

* 
P, 

83,0 

a 
P, | 

a 


6,0 


2,0 


4,0 


5,0 


Ps 


a7.0 





85,5 


7.5 


pP 4o,0 Ao, 40,2 0,3 Go,  Qo,5 o,s 4,7 | |, 
0 
a&i o Qi,1 G2 41,3 Qia 41,5 41,6 41,7| |Xs 
P 42,0 Q2.1 @2,2 42,3 Q24 Q25 @2,6 42,7 | | x6 
1 
43,0 43,1 43,2 43,3 G3, 43,5 43,6 03,7] |47 
P G4,90 44,1 Q42 44,3 Qa Q4,5 24,6 J2a4,7| |Xo 
2 
45,0 5, 45,2 45,3 45,4 45,5 45,6 05,2] LTI 
P 46,0 Q6,1 46,2 46,3 46,4 46,5 46,6 306,7 | |x 
3 
47,0 47,1 47,2 47,3 @7,4 47,5 47,6 47,7 | | 43 
。 R3, HARE X ERR: 
2,0 . 20,1 Go,2 Co,3 &o,4 8,5 40,6 40,7 x4 
P 
0 
Ql,0 4,1 dj Q3 89814 81,5 41,6 041, | [Xs 
42,0 42,1 @2,2 @2,3 Q2, 42,5 B6 32,7 Te 
P, E 
93,0 Q3,1 33,2 Q3,3 43,4 43,5 a3,6 33,7| |77 
Ayo Ml O42 Q43 Qg Qas Q46 24,7 | [zo 
P 
2 
85,0 45,1 35,2 Gs,3 ds, 45,5 ds, 45,7 | [21 
46,0 46,1 46,2 363 46,4 gs Gg, Q6,7 Xo 
P 
3 
47,00 47,1 87,2 87,3 U7,4 87,5 Q7.6 47,7 | [T3 





9.7 | [xg 
ai,7 | |77 
92,7 | [x 
43,7 | [71 
Q4,7 | 
45,7 | L73 
6,7 Xa 
47.7 5 


。 DRS, RINE z 的 子 向 量 在 环 上 继续 轮转 : 





Qn,0 C0,1 40,2 40,3 Qo, 4205 Goe QQ0,7 | | Xo 
Po 
aio 41,1 41,2 41,3 @1,4 41,5 41,6 1,7] |%3 
42,0 42,1 @2,2 42,3 42,4 2,5 42,6 42,7 | | 2X4 
P 
1 
43,0 43,1 43,2 43,3 43,4 43,5 43,6 3,7] | T5 
Q4,0 44,1 44,2 44,3 4,4 U4,5 24,6 24,7 | | 26 
P 
2 E 
5,0 45,1 45,2 45,3 45,4 45,5 U5,6 45,7] (T7 
46,0 46,1 46,2 46,3 46,4 46,5 46,6 46,7 | | Xo 
P. 
3 
47,9 47,1 47,2 47,3 Q7, 47,5 47,6 87,7] IYi 


。 步骤 4， TYFSE AS Hh XB EX [8] ERE AR . 


Qoo 40,1 80,2 Aos do, Qo 40,6 Qo,7 | [rs 
Po 

41,0 QI 981,2. 41,3 441,4. @1,5 Gi 41,7 | [73 

42,0 42,1 42,2 @2,3 Bza s Qz 42.7) [zs 
E 

43,9 43,1 @3,2 43,3 93,4 43,5 43,6 3,7 | [Ts 

aso 4,1 4,2 44,3 Qaa 44,5 Bae M4,7 | [ze 
P; 

Q5,0 45,1 45,2 Gs,3 45.4 45,5 aAs,6 85, | |%7 

96.0 As, 46,2 96,3 Qeu 46,5 Ges 46,7 | [zo 
P; 

8750 3a7,1 47,2 47,3 U7,4 @7,5 Q7,6 47,7 | |1 


因此 矩阵- 向量 相 乘 算法 可 以 用 如 下 的 伪 代 码 表示 : 


MatrixVector(A, x, y) { 
q = Comm rank(); 
p = Comm_size(); 


for (step-0; step<p; step++) ( 
send(x, r); 
// local computations 
for (i=0; i<r; i++) { 
for (j-20; j<rz g++) ( 
yli] = y[il«a[i, (q-step mod p)r-*jl*xI 


31; 
) 
) 
receive(temp, r); 
x = temp; 
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现在 我 们 分 析 该 算法 的 复杂 性 。 令 u 表示 基本 计算 ,rt 表示 环形 网 络 中 通信 链 路 
的 传输 速率 。 我 们 将 这 些 步 又 重复 PP 次 ,每 一 步 需 要 的 时 间 最 多 为 : 

(1) 本 地 计算 矩阵 -向 量 积 需要 ru 时 间 。 

(2) 使 用 we 十 rr 模型 计算 发 送 / 接 收工 子 向 量 的 时 间 为 : max( 王 wx，u 十 rr) 。 


对 于 大 型 矩阵 (n 非常 大 ) RIA mwy>a 十 rr， 由 此 可 得 全 局 复杂 度 为 上 4。 并行 


化 的 效率 趋向 于 1 因为 加 速 比 趋 向 于 P. 

总 而 言 之 ， 通 过 同时 使 用 己 个 处 理 器 ， 我 们 可 以 将 矩阵 A 按 行 划 分 为 P 个 分 片 : 
这 证 实 了 HPC 不 仅 能 够 更 快 地 处 理 数据 ， 而 且 还 能 解决 规模 更 大 的 问题 。 通 过 将 输入 
数据 均匀 地 分 配 到 集群 中 各 机 器 的 本 地 内 存 中 ， 集 群 可 以 处 理 大 量 数据 。( 在 理想 的 情 
况 下 ， 将 一 个 进程 分 配给 一 个 处 理 器 。) 


5.3 网 格 上 的 和 矩阵 乘法 : 外 积 算法 


我 们 介绍 一 个 简单 的 计算 C= 二 AX8B 的 算法 ,该 算法 运行 在 一 个 由 处 理 器 组 成 的 二 
维 网 格 上 。 所 有 和 矩阵 的 维度 是 固定 的 ， 均 为 nXn。 假设 P= 二 nXn， 且 标量 元 素 ajs 
bi,j 以 及 矩阵 中 的 元 素 ci,; 已 经 存储 在 处 理 器 Pi 的 本 地 内 存 中 。 我 们 的 目标 是 计算 


c; = Dae Xb4.;。 但 是 计算 之 前 ,我 们 首先 需要 将 其 初始 化 为 零 : ci 二 0。 
k=] 


在 阶段 EGRE (1，…，P)}))， 我 们 使 用 两 种 通信 和 原 语 一 水平 广播 和 垂直 广播 通信 
原 语 ， 如 下 所 示 。 
e 水 平 广播 : ViE11，…，P}， 处 理 器 Pi 将 第 ; 行 的 数据 a;,; 水 平 广播 给 所 有 
处 理 器 PP; 。( 所 有 处 理 器 P Hj Eil, s+, mh). 
。 垂直 广播 : VjE{1,…，P)， 人 处理 器 Pi 将 第 & 行 的 数据 wx, 垂直 广播 给 所 有 
AERE P a i (所 有 处 理 器 PIE €T. e. n). 
e 本 地 独立 相 乘 : 每 个 处 理 器 已 ,更 新 其 数据 cv ， 如 下 所 示 6; 76.; Taie Xbk.j。 
当然 ， 我 们 也 可 以 用 本 地 矩阵 块 相 乘 来 取代 标量 相 乘 。 该 算法 已 经 在 软件 库 Sca- 
LAPACKS 中 实现 ， 其 名 称 为 : 外 积 算法 。 


5.4 二 维 环 面 拓扑 上 的 矩阵 乘积 


现在 我 们 考虑 二 维 环 面 拓扑 结构 和 矩阵 乘积 M 一 MI X MP. AP € NN 表示 环 面 的 
宽度 ， 因 此 我 们 有 VP Xv 忆 王 己 个 处 理 器 。 每 个 处 理 器 P; 可 以 与 四 个 邻居 进行 通信 


C http://www. netlib. org/scalapack/ 。 
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(常规 拓扑 )， 如 图 5-7 所 示 : 我 们 将 四 个 邻居 分 别称 为 北 、 南 、 东 、 西 。 








图 5-7 ”二 维 环 面 的 拓扑 结构 是 规则 的 :每 个 处 理 器 可 以 与 四 个 邻居 进行 通信 ， 表 
示 为 北 、 南 、 东 、 西 


在 操作 和 矩阵 时 ， 我 们 经 常 需要 用 到 两 个 非常 有 用 的 乘法 一 Hadamard 积 和 
Kronecker 积 ， 定 义 如 下 。 
。 Hadamard 积 (或 标量 -标量 积 ) : 
A'B = LA°B ];,; 一 La;,; x b,.; .i 
444 212 43 ba biz bs aibi arzbs aub 
: 42; Qaz3| |p21 bap | om x2 b22 € 


43, 432 433 bs, baz 03; A313, — 435035 — 33033 


ajB os a 
a4; B ** Ang, B 


我 们 将 看 到 三 个 用 于 计算 环 面 上 矩阵 乘积 的 算法 : 
(1)Cannon 算法 。 

(2)Fox 算法 。 

(3)Snyder 算法 。 

Ser E, EERE C 一 AXB==[ci,; j;,; 的 计算 公式 为 








e Kronecker 积 ( 或 标量 块 积 ): 


AGB- 





tg = D» dna XD VISES 
k=1 


我 们 可 以 使 用 标量 积 重 写 这 个 公式 ， 如 下 所 示 : 
Ci,j nad Cai. 26. Jj? 


HP. a. 是 矩阵 A 的 第 i ‘T, b ,是 矩阵 的 第 7 列 。 
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为 了 在 处 理 器 本 地 进行 计算 ， 我 们 需要 在 执行 乘法 之 前 将 数据 we 和 上 以 ,存储 在 
Pi 中 。 初始 时 ， 和 矩阵 A 和 互 中 的 数据 已 经 划分 成 大 小 为 \/ 车 XE NR, AEA 
分 布 到 各 个 处 理 器 中 。 在 这 三 种 不 同 的 算法 (Cannon/Fox/Snyder) 中 ， 处 理 器 P; ffi 
JP 
责 计 算 C,; = DAs X Bi。 这 三 种 算法 的 不 同 之 处 在 于 通信 策略 和 通信 原 语 。 
k=] 


5.4.1 Cannon 算法 
为 了 说 明 这 个 矩阵 乘积 算法 ， 我 们 首先 考虑 一 个 大 小 为 4X4 的 二 维 环 面 : 


Coo Col C02 C0,3 49,0 40,1 40,2 40,3 boo boa bo,s Dou 

Cio C1 Cl C13 4,0 41,1 41,2 4,3 bio bia PD; big 
< 一 x 

C2,0 €2,1 C2,2 2,3 42,0 42,1 82,9 42,3 boo b21 b22 b23 

Czo ©€3,1 ©€3,2 ©3,3 43,0 43,1 43,2 43,3 bso bast ba,2 b33] 


Cannon 算法 需要 预 处 理 和 后 处 理 ， 分 别 是 前 偏 移 和 后 偏 移 (与 前 偏 移 相反 ) 原 语 。 
算法 使 用 水 平和 垂直 循环 移 位 发 送 A 和 B 的 矩阵 块 。 循 环 移 位 操作 只 是 简单 的 行 移 位 
或 列 移 位 (使 用 一 维 环 面 拓扑 的 属性 进行 了 封装 ) 。 

首先 ， 我 们 通过 水 平和 垂直 前 偏 移 来 对 矩阵 A 和 B 其 进行 预 处 理 : 


。 和 矩阵 As 我 们 将 每 行 元 素 左 移 使 得 对 角 线 元 素 出 现在 最 左边 (前 偏 移 )，A 


49,0 40,1 40,2 U0,3 


42,2 42,3 42,0 42,1 
23,3 83,0 43,1 03,2 
。 EEB: RAVE RI TCR | BES AR ACC oh BLE SR EX CTAA), Bev 
boo by bz ba 
bi,o bz, D; boa 
boo baa bo big 
bzo bon biz 2,3 
这 样 ， 经 过 预 处 理 之 后 ， 环 面 上 初始 情况 如 下 所 示 : 


Coo Co,ı 0,2 0,3 429.0 40,1  Qo,2 40,3 boo Dii bz b33 
Gyo Cyr 252 C1;3 u 44,1 2808), 41.3 1,9 x bio bz, 3,2 bo,s 
C2,0 5C2,1 C2,2 ©2,3 42,2 42,3 @2,0 22.1 bzo by Do; big 
€3,0 €3,1 C3,2 C3,3 43,3 43,0 Q3, 43,2 bao boa bi b23 


因此 ， 我们 可 以 在 本 地 计算 和 矩阵 块 相 乘 ， 并 将 结果 累加 到 和 矩阵 C 对 应 的 块 中 : cuu 
c; bai Xb). Bix A 进行 一 维 循环 移 位 (将 行 上 移 )， 对 B 进行 一 维 循环 移 位 (将 
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列 左 移 )， 进 而 得 到 下 列 公式 : 


Coo Co, Coz Co.3 420.1 40,2 40,3 49,0 bio Da 7035 bo,3 
Cio Cii €1,22 ja Ui,2 41,3 41,0 GJ, be) bs bo bis 
= x 
C20 €2,3 En.  €2,3 42.3 42,0 42,1 45,2 b30 bo,i bi bza 
C3.0 €3,1 C32 ©3,3 43,0 43,1 43,2 43,3 boo bia 5; b33 


我 们 再 次 计算 本 地 和 矩阵 块 乘积 并 将 其 结果 累加 到 和 矩阵 C 对 应 的 块 中 。 总 的 来 说 ， 


我 们 重复 这 个 循环 移 位 -计算 步骤 VP 次 。 完 成 矩阵 乘法 计算 之 后 ,我 们 需要 通过 后 偏 
移 来 重新 排列 矩阵 A 和 B。 算法 2 用 伪 代 码 描述 了 Cannon 算法 : 


Data: P processors on the torus: P = VP x VP. Matrix A, B stored locally by block on 
the processors. 

Result: Return the matrix product C = A x B 

// Pre-processing of matrices A eand B 

// Preskew + : diagonal elements of A aligned vertically on 
the first column 

HorizontalPreskew( A); 

// Preskew 1+ : diagonal elements of B aligned horizontall on 
the first column 

VerticalPreskew( B); 

// Initialize blocks of C to 0 

C=0; 

for k = 1 to 4/P do 
C + C+LocalProduct(A,B); 
// Horizontal shift + 
HorizontalRotation(A); 
// Vertical shift 个 
VerticalRotation( B); 

end 

// Post-processing of matrices A and B : reciprocal inverse 
of pre-processing 

// Preskew 一 

HorizontalPostskew( A ); 

// Preskew | 

VerticalPostskew( B); 


算法 2 在 环 面 拓扑 上 计算 矩阵 乘法 C—AX BB Cannon 算法 





图 5-8 说 明了 Cannon 算法 在 3X3 环 面 上 计算 时 的 不 同步 又。 注意 ， 环 面 拓扑 上 
的 Cannon 算法 只 需要 在 邻居 之 间 进 行 直 接 的 点 对 点 通信 。 和 矩阵 C 的 块 总 是 保持 固定 
的 位 置 。 为 了 优化 代码 ， 我 们 观察 到 本 地 和 矩阵 乘积 可 以 与 通信 原 语 重 倒 (为 发 送 /接收 
矩阵 块 设置 缓冲 区 )。 为 了 检验 Cannon 算法 确实 是 正确 的 ， 我们 只 需要 验证 是 否 所 有 
本 地 矩阵 乘积 都 已 经 被 计算 了 : 


MP 
C; = BjAi X Bigs VI & 6j « VP 
k=l 


5.4.2 Fox 算法 : 广播 一 相 乘 一 循环 移 位 矩阵 乘积 


Fox 算法 不 需要 任何 预 处 理 或 后 处 理 。 也 就 是 说 ， 初 始 时 A 和 B 的 矩阵 块 不 需要 
移动 。Fox 算法 的 基本 原理 是 将 A 的 对 角 线 元 素 进行 水 平 广播 (逐步 右 移 )， 将 B 的 元 
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素 进 行 垂 直 向 上 的 循环 移 位 。 图 5-9 展示 了 一 个 3X3 方 阵 A 的 三 条 对 角 线 。 





By 


初始 
预 处 理 : Aio Aii | A12 
前 偏 移 





Bia 








Bio 


= 


Ago Aon 402 
Bow Bou Bo 
Aio Aa Aio» 
Bio Bia Bi 








A20 A24 A23 Boo Bay Boo 
eq 


oaa 
步骤 1: 
Se [al lla 
循环 移 位 





A22 Aro Asi 
i 
JAE 

步 又 2: 


加 回回 
四 四 四 








本 地 计算 | Aio Aio Aia 
循环 移 位 
isis 


^0  —_ -一 一 





Boo Boa | Bi 
四 








AAE 














wee 回回 加 
Azo A24 | A22 





JE 





Bio Bi Bi» 


图 5-8 Cannon 算法 示例 ， 前 偏 移 ， 本 地 矩阵 乘积 和 循环 移 位 通信 组 成 的 循环 ， 以 及 后 偏 移 


A» A24 A22 
Boo B21 Brg 
Ao, Ao, Ag,2 
Boo Bia Boa 
Aia Aiz Aro 
Bio Boy Bo 
A22 42.0 A24 
Bao Boa Bia 


Apa 4o2 Aoo 
Bio Bo, Bo» 
A12 Aio Aia 
Bao Box Bi.2 
Azo Aza A2, 
Boo Bia Ba» 


Ao2 An.o Ao 
Boo Boa Bia 
Aio Aia Ala 
Boo Bia B22 
A20 A2, A20 
Boo Bia Boa 


Ano Ao Ap,2 
Boo Bia Ba 
Aia A12 Aio 
Bio B21 Bo,2 
A22 A20 A24 
Bo By Bi» 
Apo Aon Ao,2 
Boo Bo; Bo 
Aio Aia A12 
Bio | | Bia Bia 
A20 A24 Aga 
Boo | | Boa Bo2 
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第 三 条 对 角 线 





第 二 条 对 角 线 











22 N 第 一 条 对 角 线 


VY 





Ap.2 
Nc 
das 
Ag | lo ) 





图 5-9 4S Pr FE 4B EA XT f 2X ORB Ie DA] 2e HE f 3X3) 


现在 我 们 考虑 4X4 矩阵 。 各 和 矩阵 的 初始 化 如 下 所 示 : 


Co,0 Co,l C0,2 C0,8 4,0 40,1 40,2 40,3 boo bo, 80,2 

Cio Cl 512 C13 41,0 41,1 41.2 41,3 bio bia bi 
~~ 

C20 Ce, 2,2 27.3 42,0 42,1 42,2 42,3 bzo 34 b22 

€3,0 Ca.) ©€3,2 C3,3 43,0 43,1 43,2 43,3 bzo bal 032 


20,3 
bis 
bs. 


bs. 


我 们 首先 广播 A 的 第 一 条 对 角 线 5 注意， 我们 为 A 设置 一 个 工作 缓冲 区 且 A 的 块 
始终 存储 在 初始 处 理 器 上 ) : 


CO,0 
C1,0 
C2.0 


C3.0 


C0,1 


C1,1 
Cou 


C3,1 


€0,2 
C1,2 
C2,2 


C3,2 


C0,3 


C2,3 


C3,3 


3,3 


3,3 


5,2 


43,3 


3,3 


boi 
bia 
b 
63,1 


bs,2 


bo,s 
bis 
bos 


bs.3 


由 于 索引 匹配 ， 我 们 可 以 执行 本 地 计算 : BU. a 的 第 二 个 索引 与 5 的 第 一 个 索引 
相对 应 。 然 后 我 们 对 B 进行 垂直 循环 移 位 (逐步 上 移 )， 并 且 将 A 的 第 二 条 对 角 线 进行 
广播 ， 之 后 我 们 可 以 得 到 下 列 公式 : 


C0,0) 
C1,0 
C2,0 


C3.0 


C3,1 


Co,2 


€3,2 


€2,3 


C3,3 


3.0 


3,0 


3,0 


42,3 


3,0 


bio 
bo 
b3 o 
bo.o 


bia 
bz. 
b3. 


boi 


b1,2 
ba,s 
bs,2 
bo,2 


bis 
b5.5 
b3,3 
bo. 


入 和 的 矩阵 块 素 引 相 对 应 ， 因 此 我 们 可 以 执行 本 地 计算 ， 然 后 将 结果 存储 在 矩 
Me C 对 应 的 块 中 。 这 些 步 又 总 共 需 要 重复 V 忆 次 ( 环 面 的 宽度 )。 算 法 3 用 伪 代 码 的 形 
XÉT Fox 算法 。 
5-10 展示 了 在 3X3 环 面 拓扑 上 Fox 算法 的 运行 过 程 。 历 史上 ， 该 算法 是 为 
Caltech(CUS) 的 超 立 方 体 拓扑 架构 而 设计 的 ， 但 是 正如 第 3 章 中 介绍 的 ， 我 们 可 以 将 逻 
辑 环 面 拓扑 映射 到 超 立 方 体 拓 扑 上 。 这 个 算法 在 文献 中 通常 被 称 为 广播 - 相 乘 -循环 移 
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processes 





for i = 110 /P do 
// Broadcast 


// Multiply 
C + C+LocalProduct(A,B); 
// Roll 


VerticalRotation( B); 
end 





Data: P processes on the torus: P = VP x VP. Matrix A, B stored locally by block on 


Result: Compute the matrix product C — A x B 
// Initialize blocks of C to 0 


Broadcast the i-th diagonal of A on the torus rows; 


// Nertical rotation: vertical shift upward 个 












算法 3 在 环 面 拓扑 结构 上 计算 矩阵 乘积 的 Fox 算法 


步 又 1: 
emo [5] 


本 地 计算 


步骤 2， 四 | 四 四 
FEE 


本 地 计算 [=] [=] [=] 
Aer. 
将 矩阵 8 垂直 


步骤 3; 
E 
本 地 计算 [^] 
pg. L] Lj] |] 
Saa JL IE] 
最 终 和 矩阵 m E] E 


加 | 四 | 四 


Aon 
Boa 
Au Aus Ais 
Bio Bia Bia 
Arz Aza Az2 
Bia Bia Ba 


Ao Aoi Aoi 
Bio Ba Bia 
Ais Aia Ara 
Bio B; Bi; 
Azo Aio Azo 
Bow Bor Boa 


000 


Ao A02 Aga 
Bay Bii Baa 
Aio Ao Aro 
Boo | | Bo. | | Boa 
Aza Ay) 
Bis Bia 
Aon Ao4 Aua 
Boo | | Bos | | Boz 
Ayo | | Ani | | Aue 
Bi Bi Biz 
A20 Aaa 
Bao | | Bza 


图 5-10 广播 - 相 乘 -循环 移 位 矩阵 乘积 算法 示例 ， 也 称 为 Fox 算法 : 该 算法 不 需要 预 处 理 
或 后 处 理 操作 。 在 阶段 1， 我 们 广播 矩阵 A 的 第 i 条 对 角 线 ， 计 算 本 地 块 矩 阵 乘 
Bi. 并 对 矩阵 B 进行 垂直 循环 移 位 
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5.4.3 Snyder 算法 : 在 对 角 线 上 进行 本 地 乘积 累加 
在 Snyder 算法 中 ， 我们 首先 通过 转 置 来 对 和 矩阵 B 进行 预 处 理 : B<-B' 。 然 后 计算 
A. B 对 应 行 中 和 矩阵 块 的 内 积 ， 并 将 结果 累加 到 和 矩阵 C 的 第 一 条 对 角 线 上 。 接 着 我 们 


将 矩阵 B 垂直 循环 上 移 ， 并 重复 VP 次 。 算 法 4 给 出 了 伪 码 形式 的 Snyder HIE. BH 
法 在 3X3 环 面 上 的 执行 过 程 如 图 5-11 所 示 。 


初始 化 
预 处 理 : 
HSHBB 





























步骤 1: 

本 地 计算 并 将 
结果 累加 到 C 的 
第 一 条 对 角 线 














JHE HEE 
步骤 1 : 
Me (lalla) [elle 
循环 移 位 

JAA HAE 


步骤 2: 

本 地 计算 并 将 
结果 累加 到 C 的 
第 二 条 对 角 线 
p. 

将 矩阵 3 垂直 
循环 移 位 





步骤 3: 
本 地 计算 并 将 
结果 累加 到 C 的 


ET 下 | 于 | 于 | 


图 5-11 用 Snyder 算 法 计算 矩阵 乘积 C— AX B RA: 首先 将 矩阵 Bt. ERNE i 
我 们 计算 A、B 对 应 行 中 矩阵 块 的 内 积 ， 并 将 结果 累加 到 矩阵 C 的 第 i 条 对 角 
线 上 。 然 后 将 矩阵 B 上 移 。 完 成 矩阵 乘积 后 ， 我 们 再 次 将 矩阵 B 转 置 
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Data: A, B, C matrices array[0..d — 1,0..d — 1] 
Result: Matrix product C = A x B 
// Preskewing 
Transpose B; 
// Computation stages 
for k = 1 to VP do 
// Row-wise inner product of A and B 
Local matrix block computation: C = A x B; 
// We compute the definitive C block matrix for the k-th 
diagonal 
// Global sum (reduce) 
Parallel prefix with > on C on the processor rows to get the k-th diagonal block element 
of C; 


Vertical shift of B; 
end 
// We transpose B to get back its original layout 
Transpose B; 





算法 4 Snyder 算法 计算 矩阵 乘积 的 伪 代 码 形式 


5.4.4 Cannon, Fox 和 Snyder 算法 的 比较 


我 们 已 经 简要 介绍 了 在 二 维 环 面 拓扑 上 三 个 主要 的 矩阵 乘积 算法 。 现 在 我 们 在 表 5-1 
中 对 这 些 方法 做 一 个 简要 概括 。 


表 5-1 在 环 面 拓扑 上 比较 三 种 矩阵 乘积 算法 












Cannon 


对 A、B 前 偏 移 


Snyder 
HUE BB 
对 所 有 行 求 和 
无 

自 底 至 上 














在 AA 上 的 通信 
在 B 上 的 通信 








5.5 注释 和 参考 


关于 和 矩阵 和 线性 代数 的 著名 参考 书 ， 推 荐 阅读 “Golub”i']。 和 矩阵 演算 扩展 了 向 量 
和 标量 演算 ， 更 进一步 ,还 可 以 扩展 到 多 维 张 量 演算 (这 是 微分 几何 的 核心 部 分 )。 
Cannon 算法 [31 可 以 追溯 到 1969 年 ，Fox 算法 来 自 1987 年 的 一 篇 文章 [4]，Snyder 算 
法 引出 现在 1992 年 。 对 于 并 行 算法 ,包括 前 面 提 到 的 三 个 算法 ,我 们 推荐 Casanova 
等 人 的 著作 [6]。 高 性 能 并 行 科 学 计算 通常 采用 混合 编程 模式 ， 包 括 基 于 多 核 共 享 内 存 
的 OpenMP 编程 语言 和 基于 集群 分 布 式 内存 的 MPI 编程 语言 。 


5.6 总 结 


在 线性 代数 中 ， 基 本 原 语 包括 : 向 量 的 标量 积 、 和 矩阵 -向 量 积 及 矩阵 -矩阵 积 。 向 
量 -矩阵 积 和 和 抢 阵 -矩阵 积 可 以 容易 地 用 标量 积 表示 。 对 于 基于 分 布 式 内 存 的 并 行 算法 ， 
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我 们 假设 初始 时 和 矩阵 数据 已 经 分 布 在 不 同 的 计算 节点 上 了 ,我们 的 目标 是 在 执行 本 地 
计算 的 同时 将 通信 开销 降 到 最 低 。 根 据 所 选 的 拓扑 架构 ， 可 以 选择 矩阵 的 列 块 分 解 ( 例 
如 ,对 于 有 向 环 拓扑 ) 或 者 棋盘 矩阵 块 分 解 ( 例 如 ， 对 于 环 面 拓扑 )。 虽 然 矩 阵 乘积 是 许 
多 算法 的 基础 之 一 ， 但 是 该 问题 的 复杂 性 仍然 没有 和 解决， 通常 情况 下 ， 人 们 更 倾向 于 
使 用 简单 的 立方 时 间 算 法 或 者 并 行 实现 ， 而 不 是 使 用 更 复杂 的 算法 ， 例 如 Winograd- 
Coppersmith 4€ 35:7 。 


5.7 练习 


练习 1 ARAL RAR 

如 何 优化 对 称 和 矩阵 在 环 面 拓扑 上 的 乘法 ? 
练习 2 环形 拓扑 上 的 纸 阵 乘积 

设计 一 个 环形 拓扑 上 的 矩阵 乘积 并 行 算法 。 
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第 6 章 
MapReduce 范式 


6. 1 快速 处 理 大 数据 的 挑战 


MapReduce( 或 Java 的 等 价 开 源 架 构 Hadoop) 系 统 提供 了 一 个 简单 的 框架 ， 用 于 
并 行 化 执行 基于 海量 数据 集 的 并 行 算法 ， 这 些 海 量 数据 集 通常 称 为 大 数据 (其 数据 规模 
从 GB 到 TB 不 等 ， 甚 至 达到 了 PB)。 这 种 面向 数据 密集 型 并 行 编程 所 专用 的 MapRe- 
duce 范式 最 早 是 由 Google 公司 在 2003 年 开发 出 来 的 。MapReduce 是 并 行 编程 的 一 个 
抽象 模型 ， 用 于 在 计算 机 集群 上 处 理 海 量 数据 集 ， 也 是 一 个 执行 和 监测 作业 的 平台 。 
MapReduce 可 以 很 容易 使 用 和 扩展 ， 但 是 也 容易 出 现 硬 件 和 软件 错误 。 

追溯 到 2007 Æ, Google 每 天 处 理 20PB 的 数据 ， 并 且 这 个 数字 每 年 都 呈 指 数 级 
增长 。 如 果 你 现在 的 笔记 本 电脑 硬盘 容量 是 1TB， 你 能 想象 如 何在 你 的 机 器 上 每 天 
处 理 相当 于 你 磁盘 容量 20 000 倍 的 数据 量 吗 ? 这 确实 是 一 个 挑战 。 此 外 ， 在 许多 科 
学 领域 ， 数 据 集 通 常 来 自 高 通 量 的 科学 仪器 ， 那 么 处 理 这 些 海量 数据 集 将 会 越 来 越 
具有 挑战 性 。 这 种 情况 在 粒子 物理 、 天 文学 、 基 因 组 分 析 等 方面 都 比较 常见 。 人 /机 
器 每 天 也 会 生成 大 量 数据 集 ， 这 些 数据 集 是 Web 应 用 程序 在 互联 网 上 需要 被 精细 地 
分 析 的 日 志文 件 。 例 如 ， 我 们 希望 细 分 网 站 的 用 户 点 击 ， 以 发 现 用 户 在 会 话 期 间 浏 
览 了 哪些 网 页 。 了 解 用 户 的 行为 可 以 让 我 们 为 不 同 的 用 户 定制 网 站 ， 如 在 网 站 中 增 
加 广告 面板 等 ! 在 点 击 流 不 断 地 被 记录 到 日 志文 件 中 期 间 ， 点 击 流 分 析 可 以 进一步 
通过 并 行 算 法 来 输出 有 效 的 信息 。 搜 索引 人 擎 还 需要 以 更 快 的 速度 索引 所 有 可 从 网 上 
访问 的 文档 : 使 用 疏 虫 程序 检索 页 面 内 容 。 世 界 上 各 种 机 构 对 个 人 数字 化 活动 进行 
筛选 的 例子 就 更 多 了 。 

如 今 ， 关 键 的 挑战 之 一 就 是 如 何 批量 处 理 这 些 大 数据 。 我 们 不 断 挑 战 可 处 理 数 据 
容量 的 极限 。 这 是 一 个 需要 努力 追求 的 目标 。 此 外 ， 我 们 甚至 需要 实时 地 (而 不 仅仅 是 
以 批 处 理 模式 ) 在 线 分 析 这 些 数据 流 ( 如 社交 网 络 中 的 新 闻 提 要 、 推 文 和 其 他 信息 )。 因 


O ” 当 使 用 数 以 百 计 的 便宜 机 器 进行 互 连 时 ， 在 实际 应 用 中 故障 经 常 发 生 ， 而 且 这 些 问题 需要 解决 。 
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此 ， 许 多 全 球 知名 的 公司 致力 于 开发 相应 的 工具 和 平台 来 满足 这 些 需求 。 例 如 , 我们 
可 以 利用 Apache storm? ， 或 者 Apache SparkS 来 处 理 数据 流 ， 或 者 使 用 Hive 旦 来 为 
海量 数据 库 量 身 定 制 类 SQL 语言 

这 些 大 数据 到 底 有 多 大 呢 ? 1PB 可 以 存储 大 约 100 亿 张 照片 (Facebook、 Flickr、 
Instagram 等 ) 或 13 年 的 高 清 视频 (YouTube、DailyMotion 等 ) 。 在 普通 PC 上 线性 处 
3g 20 PB 的 数据 将 需要 7 年 以 上 的 时 间 。 因 此 ， 必 须 开 发 有 效 的 具有 亚 线 性 运行 时 间 
复杂 度 的 并 行 算法 。MapReduce 是 一 个 能 够 轻松 执行 这 些 计 算 任 务 的 框架 : 专业 (和 
非 专业 ?开发 人 员 都 可 以 轻松 地 在 小 型 计算 机 集群 上 处 理 数 TB 数据 。 这 对 于 中 小 型 企 
业 来 说 是 非常 有 用 的 。 


6.2 MapReduce 的 基本 原理 


6.2.1 map I reduce WE 


虽然 MapReduce 是 一 个 非常 简单 的 并 行 编程 模型 ， 但 它 提供 了 非常 灵活 的 方式 来 
编写 高 度 通 用 的 应 用 程序 。 事 实 上 ， 许多 问题 都 可 以 通过 两 个 基本 步骤 来 解决 : 

(1) 步 又 1 映射 (map): 通过 一 个 函数 对 一 系列 数据 进行 评估 ， 从 而 产生 与 键 值 有 
关 的 新 元 素 ; 

(2) 步 骤 2 A (reduce): 我 们 聚合 那些 具有 相同 键 值 的 新 元 素 ， 并 用 另 一 个 用 户 
自 定义 函数 来 归 约 它们 。 

例如 ， 为 了 计算 大 量 文档 (通常 称 为 文本 语料库 ) 中 的 单词 数 ， 我 们 用 键 值 对 ww e 
(k;,v;) 将 文本 的 每 个 单词 ww FSR. Hor] b; = hCw,) = w, 表示 对 于 数据 元 素 w 的 键 
fii, u= ulw) — 1 是 相应 评估 函数 的 值 (每 个 单词 一 个 值 )。 然 后 我 们 考虑 具有 相同 
键 值 k HJIR GO) = (w; | k(wi) 二 &}， 计 算 其 相应 的 累积 和 来 对 这 些 键 值 对 进行 归 
约 。 我 们 注意 到 ， 通 过 将 数据 合理 地 分 布 到 计算 机 集群 上 ，map 函数 能 够 在 集群 上 
使 用 大 量 相 互 独立 的 进程 来 进行 并 行 计 算 。 然 而 ，reduce 过 程 会 将 map 过 程 的 输 
出 结果 作为 输入 ， 二 者 并 不 是 独立 的 。map 过 程 将 输入 数据 转换 为 ( 键 ， 值 ) 对 这 样 
的 中 间 数 据 。 

由 于 我 们 处 理 的 是 大 规模 数据 集 ，map 和 reduce 函数 都 将 在 计算 机 集群 上 进行 
并 行 实现 。 因 此 ，MapReduce 针对 的 是 细 粒 度 并 行 ， 其 中 本 地 计算 是 基本 运算 操作 。 
实现 用 户 自 定 义 map 函数 的 过 程 称 为 映射 器 (mapper)， 实 现 reduce 函数 的 过 程 称 为 
归 约 器 (reducer)。 





©  https://storm. apache. org/ 。 
= https: //spark. apache. org/streaming/ 。 


©  https://hive. apache. org/ 。 
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6.2.2 历史 视角 : 函数 式 编 程 语言 中 的 map 和 reduce 

对 于 熟悉 函数 式 编程 的 读者 来 说 ，map Fil reduce 这 两 个 基本 概念 已 经 是 函数 式 
编程 语言 语言 的 一 部 分 。 例 如 ， 在 Lisp(Common Lisp / Scheme) 或 OCaml? 中 ， 我 们 
可 以 实现 这 两 个 基本 操作 : 


* map 





(sepan te, ore fr uem Fn | 





® reduce 





对 于 reduce 原 语 ， 我 们 需要 一 个 可 交换 的 二 元 运算 符 ， 就 像 求 和 (sum) 一 样 ， 
也 可 以 不 是 (如 矩阵 的 乘积 或 标量 除法 ) 。 

在 Lisp 呈 中， 这 两 个 函数 可 以 这 样 使 用 : 

* map 


CL-USER > (mapcar #’sqrt ‘(3 4 5 6 7)) 
(1.7320508 2.0 2.236068 2.4494899 2.6457513) 


® reduce 


CL-USER > (reduce #‘+ ‘(1 2 3 4 5)) 
15 


在 OCaml 中 ,我 们 将 映射 实现 为 一 元 运算 符 ( 即 运算 符 采 用 单个 参数 ): 


# let square x=x*x;; 

val square : int -> int = «fun» 

# let maplist = List.map square;; 

val maplist : int list -> int list = <fun> 
# maplist [4;4;2];; 

= : int list = [16; 16; 4] 

# 


类 似 地 ，OCaml 中 的 reduce 实现 为 二 元 运算 符 f( 即 采用 两 个 参数 的 操作 )， 其 
调用 语法 如 下 : 


fold right f [ei;e2; ... ;en] a = (f el (f e2 (£ en a)) 
fold left f a [el;e2; ... ;enl-(f .. (f (fa el) e2) ... en) 
例如 : 


List.fold left ( +) 0 [1327374] 7; 
List.fold_right ( + ) [1;:2;3:4] 0 ;; 


© http://caml. inria. fr/ocaml/ 。 
& 可 以 从 如 下 网 址 下 载 通用 Lisp: http://www. lispworks. com/. 
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由 于 在 函数 式 编程 中 ， 我 们 不 使 用 传统 的 命令 式 语言 (例如 C/C 十 十 /Java) 中 的 变 
量 ， 这 可 以 很 容易 地 对 这 些 操作 进行 并 行 化 。 此 外 ，MapReduce 提供 了 监控 工具 来 控 
iii] MapReduce 作业 。 


6.3 数据 类 型 和 MapReduce 机 制 


在 MapReduce 框架 中 ，map 和 reduce 操作 是 语义 类 型 的 ， 其 定义 如 下 : 
e 映射 器 : 


map(k; sv ) — list(k, yzz) 





e WA: 


MapReduce 任务 有 三 个 不 同 的 阶段 。 

(1) 映 射 器 : 将 输入 数据 转化 为 一 组 (key，value) 对 。 

(2) 分 类 器 : 根据 键 值 将 键 值 对 进行 分 组 。 

(3) 归 约 器 : 在 分 组 后 的 的 键 值 对 上 ， 我 们 将 具有 相同 键 值 的 数据 执行 并 行 前 级 操 
作 ( 归 约 或 聚合 ) ， 这 适用 于 所 有 不 同 键 值 的 数据 。 

只 有 映射 器 和 归 约 器 阶段 依赖 于 用 户 自 定义 的 函数 (User-Defined Function, 
UDF) 。 分 类 器 阶段 由 MapReduce 系统 自动 管理 。MapReduce 算法 是 比较 简单 的 ， 因 
为 它 在 输入 数据 上 应 用 映射 器 ， 将 结果 分 组 成 键 值 对 (key2，value2) 列 表 ， 然 后 将 该 
列表 重新 排列 、 分 组 ， 得 到 键 值 对 列表 (key2，value2 的 列表 )， 最 后 在 这 些 列表 的 每 
个 元 素 上 调用 归 约 器 ， 并 获得 聚合 结果 。 

图 6-1 说 明了 MapReduce 的 三 个 基本 阶段 。 








映射 器 








分 类 器 








分 组 后 的 数据 | Gn | Qs) | Reim? | v] 





归 约 器 











输出 | 


图 6-1 MapReduce 的 执行 模型 分 为 三 个 阶段 ; 映射 器 、 分 类 器 、 归 约 器 
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现在 让 我 们 再 给 出 另外 两 个 使 用 MapReduce 框架 并 行 化 程序 的 例子 。 


著名 的 UNIX 命令 grep? 可 以 进行 并 行 化 计算 。 在 UNIX 中 ， 对 于 一 个 目录 下 
的 文件 ， 我 们 利用 给 定 的 正则 表达 式 对 文件 中 的 所 有 行进 行 匹配 ， 并 对 匹配 的 
结果 按 降序 排序 ， 实 现 该 功能 的 命令 行 如 下 所 示 : 


grep -Eh regularexpression repertoire/* | sort | 
uniq -c | sort -nr 


这 对 于 分 析 网 站 的 日 志文 件 来 说 了 解 哪些 页 面 与 给 定 的 正则 表达 式 匹 配 最 
多 是 非常 有 用 的 。 通 过 MapReduce 形式 化 ， 我 们 可 以 轻松 实现 分 布 式 的 grep 
功能 ， 如 下 所 示 。 
一 map: 当 一 行 与 正则 表达 式 匹 配 时 ， 生 成 值 *1”。 
—reduce: 累积 求 和 函数 (二 元 关联 可 交换 运算 符 “ 十 ”的 前 级 并 行 操 作 )。 
网 络 上 的 反 向 引用 列表 。 
一 map: 在 源 页 面 中 获取 的 每 个 URL( Uniform Resource Location， 统 一 资源 定 
位 符 ) 的 (target，source) 对 。 
—reduce: 连接 与 给 定 URL 相关 联 的 所 有 URL. 


为 了 在 处 理 (key，value) 对 时 能 具备 普遍 性 ，MapReduce 只 考虑 用 于 存储 值 的 字 


符 串 。 


6. 4 


因此 ， 数 字 元 素 需 要 显 式 转换 为 字符 串 ， 反 之 则 必须 从 这 些 字符 串 中 检索 数据 。 


MapReduce 在 C+ + 中 的 完整 示例 


.我 们 将 展现 一 个 完整 的 工作 示例 ， 该 示例 是 统计 文档 中 单词 的 出 现 频 率 。 首 先 ， 
我 们 用 伪 代 码 来 表示 两 个 用 户 自 定义 的 函数 map 和 reduce, 都 具有 编码 成 字符 串 形 


式 的 函数 的 输入 、 值 和 输出 : 


用 户 自 定义 的 map AR. 


map(String input, key, String input value) 


for each word w in input value 


EmitIntermediate(w, "1"); 


用 户 自 定义 的 reduce 函数 。 


reduce(String output_key, Iterator 


intermediate_values) 


int result = 0; 


for each v in intermediate_values 


{result += ParseInt(v);} 


Emit (AsString(result)); 





©  http://wiki. apache. org/hadoop/Grep, 


3 6% MapReduce 范式 123 








为 了 能 更 清楚 描述 该 示例 ， 下 面 给 出 了 相应 的 C 十 十 MapReduce 程序 完整 源 代 
码 。 用 于 映射 数据 的 函数 f 代码 如 下 (map 过 程 ) : 


#include "mapreduce/mapreduce.h" 
// User Defined Function (UDF) 


class WordCounter 
public Mapper { 
public: 
virtual void Map(const MapInput& input) { 
const string& text = input.value(); 
const int n = text.size(); 


for (int i = 0; i < n; ) ( 
// Skip past leading whitespace 
while ( (i « n) && isspace(text[i])) 
i++; 


// Find word end 
int start = i; 
while ( (i < n) && !isspace(text[i])) 
i++; 
if (start < i) 
EmitIntermediate(text.substr(start, i-start) 
p "LAM 


) 
); 


REGISTER MAPPER(WordCounter); 
归 约 器 的 代码 片段 是 : 


// fonction utilisateur de réduction 


class Adder 
public Reducer { 
virtual void Reduce(ReduceInput* input) { 
// Iterate over all entries with the 
// same key and add the values 
int64 value = 0; 
while (!input->done ()) { 
value += StringToInt (input ->value()); 
input ->NextValue(); 
} 


// Emit sum for input-»key() 
Emit(IntToString(value)); 


): 


REGISTER, REDUCER (Adder) ; 


然后 ， 我 们 将 这 些 用 户 自 定义 的 函数 应 用 到 MapReduce 程序 中 ， 如 下 所 示 : 


int main(int argc, char** argv) { 
ParseCommandLineFlags(argc, argv); 
MapReduceSpecification spec; 


6.5 启动 MapReduce 作业 和 MapReduce 架构 概述 


MapReduce 系统 可 以 在 大 型 计算 机 集群 上 运行 ,并且 对 运行 MapReduce 作业 时 
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可 能 出 现 的 各 种 问题 具有 容错 能 力 。 实 际 上 ， 当 使 用 数 千 至 数 百 万 其 至 数 亿 个 计算 核 
心 时 ， 会 频繁 地 出 现 硬件 故障 (如 突然 失效 的 硬盘 驱动 器 (CHDD)) 或 者 机 器 之 间 的 网 络 
变 得 拥塞 而 使 得 通信 速度 很 慢 ( 也 可 能 是 由 于 网 卡 故 障 ) 等 ? 。 有 些 计 算 机 由 于 过 载 ， 
也 可 能 变 得 非常 缓慢 : 它们 被 称 为 落伍 者 (straggler)。MapReduce 采用 了 主 从 架构 ， 
并 具有 容错 能 力 。 可 以 利用 超时 机 制 (time-out mechanism) 自 动 重 启 在 规定 时 间 内 尚未 
完成 的 任务 。 图 6-2 说 明了 MapReduce 的 任务 调度 器 ， 其 可 以 决定 在 多 台 机 器 上 执行 
相同 的 任务 (以 便 通过 复制 来 提供 元 余 )， 并 在 最 快 的 任务 完成 时 获取 结果 。 















任务 mapl 





| 排序 和 分 组 i 
| L o Guy) | Gg») i 











图 6-2 MapReduce 的 执行 模型 : 数据 和 map 过 程 都 是 由 MapReduce 进行 独立 分 配 ， 并 
且 优 先 为 进程 分 配 本 地 存储 的 数据 。reduce 过 程 收 集 (key，value) 对 以 计算 归 
约 操 作 


网 络 上 的 数据 传输 成 本 很 高 ， 因 为 延迟 无 法 改善 ， 并 且 带 宽 在 实际 应 用 中 是 有 限 
制 的 。 因 此 ， 任务 调度 器 优先 将 任务 分 配给 已 经 在 本 地 存储 数据 的 计算 机 。MapRe- 
duce 还 提供 了 一 个 控制 界面 ， 可 以 显示 已 执行 任务 的 各 种 统计 信息 ， 预 测 正 在 执行 的 
任务 的 持续 时 间 等 。 它 是 一 个 非常 有 用 的 监测 工具 ， 用 于 监测 计算 机 集群 上 MapRe- 
duce 任务 的 工作 负载 。 

由 于 MapReduce 依赖 于 主 从 架构 ， 主 机 出 现 故 障 时 整个 系统 也 容易 出 现 故 障 。 因 
此 ， 主 节点 定期 将 其 所 有 数据 结构 和 状态 写 人 安全 副本 ， 以 便 在 失败 的 情况 下 恢复 
MapReduce 任务 (恢复 点 ) 。 数 据 存储 在 Google 文件 系统 (GFS) 上， 该 文件 系统 将 文件 
分 割 成 64 MB 的 块 ， 并 将 这 些 片段 的 多 个 副本 保存 在 不 同 的 计算 机 上 ， 以 确保 其 鲁 棒 
性 和 容错 性 。 我 们 已 经 解释 了 MapReduce 的 基本 原理 。 为 了 简洁 起 见 ， 我 们 忽略 了 


O 这些 图 通常 是 公司 的 商业 秘密 ， 因 此 从 不 公开 发 布 。 
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MapReduce 的 许多 优化 。 例 如 ， 组 合 器 (combiner) 可 以 在 本 地 将 中 间 键 相等 的 键 值 
对 组 合 在 一 起 ， 通 过 缩小 发 送 到 归 约 器 的 数据 规模 以 优化 网 络 流量 。 有 时 ， 这 意味 着 
需要 稍微 修改 MapReduce 代码 。 例 如 ， 如 果 我 们 希望 计算 平均 值 ， 组 合 器 不 仅 需 要 发 
送 平均 值 ， 而 且 还 需要 发 送 产生 该 平均 值 的 元 素 的 数量 。 

MapReduce 成 功 的 原因 主要 是 由 于 它 能 够 将 两 个 简单 的 用 户 自 定 义 函 数 进行 自动 
并 行 化 。MapReduce 可 以 完全 处 理 传统 上 烦琐 的 数据 分 配 、 任 务 监 控 等 。MapReduce 
还 负责 发 送 数据 传输 命令 并 管理 计算 机 的 负载 平衡 。 它 提供 了 一 个 具有 容错 能 力 的 并 
行 编程 框架 (MPI 的 情况 并 不 是 如 此 ， 人 们 需要 手动 地 对 所 有 细节 进行 处 理 )。 其 模型 抽 
象 简单 但 功能 强大 ， 足 以 实现 一 系列 丰富 的 应 用 程序 ， 如 排序 、 并 行 机 器 学 习 算法 、 数 
据 挖 掘 算法 等 。 此 外 ，MapReduce 还 提供 监控 工具 ， 人 允许 集群 管理 员 在 必要 时 将 分 配 的 
资源 随时 调整 到 各 种 正在 进行 的 任务 上 。 最 后 介绍 的 这 个 能 力 在 行业 中 非常 受 欢 迎 。 


6.6 基于 MR-MPI 库 在 MPI 中 使 用 MapReduce 


到 目前 为 止 ， 我 们 已 经 解释 了 MapReduce 的 计算 模型 。 我 们 也 可 以 使 用 MPI 实 
现 MapReduce 算 法。 实际 上 ， 已 经 存在 一 个 可 用 的 软件 库 : MR-MPIS 。MR-MPI 的 
文档 号 也 可 以 在 线 获取 。 

例如 ，collate 函数 可 以 在 所 有 进程 上 聚合 一 个 KeyValue 类 型 的 对 象 ， 并 将 
其 转换 为 对 象 KeyMultivalue。 此 方法 返回 值 为 唯一 (Key，Value) 对 的 总 数 。 

下 面 的 程序 显示 如 何 计算 文件 集合 中 单词 出 现 的 频率 。 它 的 输出 显示 了 2015 年 最 
频繁 的 词汇 。 

#include "mpi.h" 

#include "stdio.h" 

#include "stdlib.h" 

#include "string.h" 

#include "sys/stat.h" 

#include "mapreduce.h" 

#include "keyvalue.h" 

using namespace MAPREDUCE_NS; 

void fileread(int, KeyValue *, void *); 

void sum(char *, int, char *, int, int *, KeyValue*, 

void *); 
int ncompare(char *, int, char *, int); 
void output(int, char*, int, char *, int, KeyValue*, 
void *); 
struct Count (int n, limit, Elagq;}; 
/* Syntax : wordfreq filel file2 +Z 


int main(int narg, char **args) 





©  http://mapreduce. sandia. gov/ , 


© http://mapreduce. sandia. gov/doc/ Manual. html. 
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} 
/* 


vo 
{ 


} 
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MPI_Init(&narg, &args); 
int me, nprocs; 


MPI Comm rank(MPI COMM WORLD, &me); 


MPI Comm size(MPI COMM WORLD, &nprocs); 


MapReduce *mr - new MapReduce(MPI COMM WORLD); 


int nwords = mr-»map(narg-1, &fileread, 
mr-»collate(NULL); 
int nunique = mr->reduce(&sum, NULL); 


mr-»sort values(&ncompare); 


Count count; 

count.n - 0; 

count.limit - 2015; 

count.flag = 0; 

mr->map(mr->kv, &output, &count); 
mr->gather (1); 

mr->sort_values (&ncompare) ; 


count.n = 0; 

count.limit - 10; 

count.flag = 1; 

mr->map(mr->kv, &output, &count); 


delete mr; 
MPI_Finalize(); 


&args[1]); 


For each word, emit (key=word,valeur=NULL) */ 
id fileread(int itask, KeyValue *kv, void *ptr) 


char **files = (char **) ptr; 
struct stat stbuf; 
int flag = stat(files[itask], &stbuf); 


int filesize - stbuf.st size; 


FILE *fp - fopen(files[itask], "r"); 


char *text = new char[filesize+1]; 

int nchar - fread(text, 1, filesize, fp); 
text[nchar] = N0"; 

fclose(fp); 

char *whitespace = " \t\n\f\r\0"; 

char *word - strtok(text, whitespace); 


while (word) -{ 


kv->add(word, strlen(word)+1, NULL, 0); 


word = strtok(NULL, whitespace) ; 


} 
delete [] text; 


/* emit ppairs (key-word, valeur-count) 
void sum(char *key, int keybytes, char *multivalue, 
int nvalues, int *valuebytes, KeyValue *kv, void * 


{ 


} 


/* 


ptr) 


me 


kv->add(key, keybytes, (char *) &nvalues, sizeof ( 


int)); 


for sorting, comparison function */ 
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int ncompare(char *pl, int leni, char *p2, int len2) 
{ 


int i1 = *(imt *) pi; 
int i2 = *({int *) p2: 
if (il > i2) return -1; 


else if (il < i2) return 1; 
else return 0; 
) 


/* output: display the selected words */ 


void output(int itask, char *key, int keybytes, char 
*value, 
int valuebytes, KeyValue *kv, void *ptr) 
{ 
Count *coünE = (Count *) ptr; 
count ->n++; 
if (count->n > count->limit) return; 


int n = *(int *) value; 

if (count->flag) printf("$d s\n", n, key); 

else kv->add(key, keybytes, (char *) &n, sizeof ( 
int)); 


6.7 注释 和 参考 


可 以 使 用 虚拟 机 在 自己 的 机 器 ( 单 节点 模式 ) 上 安装 MapReduce? 。MapReduce 的 
实现 取决 于 具体 的 系统 环境 ， 如 具有 共享 内 存 的 多 核 计 算 机 ， 或 非 均 匀 内 存 访 问 
(Non-Uniform Memory Access，NUMA) 多 处 理 器 ， 或 具有 分 布 式 内 存 和 互联 网 络 的 
体系 结构 等 。 例 如 ， 一 种 基于 MPI 的 MapReduce 的 实现 9 已 经 可 用 了 ， 其 有 效 性 可 参 
见 文献 [1]。 

文献 [2] 中 讨论 了 基于 MPI 的 图 处 理 MapReduce 应 用 程序 。 在 大 规模 集群 上 启动 
它们 之 前 ， 可 以 在 自己 的 计算 机 上 使 用 Hadoop( 无 须 访问 计算 机 集群 ) 来 编译 和 调试 程 
序 。 也 就 是 说 ， 可 以 使 用 各 种 学 术 或 工业 界 云 计算 平台 (Amazon EC2, Microsoft Az- 
ure, Google 等 ) 定 义 和 租 用 群集 上 的 配置 。 核 外 处 理 (out-of-core processing) 是 需要 外 
部 访问 的 并 行 算法 领域 ， 其 需要 访问 不 能 全 部 存储 在 RAM 中 的 数据 。 类 似 地 ， 核 外 
可 视 化 是 处 理 不 能 存储 在 单个 本 地 存储 器 上 的 海量 数据 集 的 计算 机 图 形 领 域 。 处 理 大 
数据 还 需要 可 视 化 大 信息 (big information)。 另 一 种 计算 范式 是 流 式 算法 。 流 式 算 
法 中 能 够 处 理 从 流 中 读 取 的 数据 。 数 据 最 终 将 在 一 个 或 多 个 遍 (pass) 中 进行 处 理 。 


6.8 总 结 


MapReduce 是 一 种 用 于 在 大 规模 集群 中 处 理 大 数据 的 并 行 编程 范式 。MapReduce 


© http://www. thecloudavenue. com/2013/01/virtual-machine-for-learning-hadoop. html, 


© http: //mapreduce. sandia. gov/ 。 
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程序 包括 两 个 用 户 自 定义 的 函数 CUDF)， 称 为 map 和 reduce， 用 于 计算 (key， 
value) 对 。MapReduce 系统 分 三 个 阶段 执行 并 行程 序 。 

(1) 映 射 器 阶段 :使 用 用 户 自 定义 的 函数 从 数据 中 生成 (key，value) 对 。 

(2) 分 类 器 阶段 : 将 (key，value) 对 按照 键 值 进行 分 组 。 

(3) 归 约 器 阶段 : 使 用 用 户 定义 的 函数 归 约 附加 到 同一 个 键 的 所 有 值 。 

MapReduce 系统 依赖 于 主 从 架构 ， 负 责 分 配 各 种 资源 ， 分 配 数据 ， 启 动 映射 过 程 
(所 有 独立 进程 )， 并 根据 当前 资源 工作 负载 (CPU、 网 络 流量 等 ) 执 行 归 约 操作 )。Ma- 
pReduce 还 提供 各 种 用 于 控制 任务 的 工具 ， 并 定期 保存 其 状态 以 防 主机 节点 月 演 (恢复 
点 )。 为 了 优化 网 络 流量 ，MapReduce 还 包含 了 被 称 为 组 合 器 的 可 选 优化 阶段 ， 其 允 
许 在 机 器 上 本 地 执行 归 约 操作 ， 然 后 将 这 些 结 果 发 送 到 网 络 上 以 进一步 进行 节点 间 的 
归 约 。MapReduce 范式 最 初 是 Google 公司 利用 C 十 十 开发 的 ， 并 依赖 于 Google 文件 
系统 (GFS) Java 中 广泛 流行 的 开源 的 替代 MapReduce 的 实现 称 为 Hadoop。Hadoop 
依赖 于 自己 的 并 行文 件 系 统 : HDFS。 
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At p k 均值 的 划分 聚 类 


7.1 探索 性 数据 分 析 与 聚 类 


如 今 ， 大 规模 的 数据 集 通常 是 公开 可 用 的 ， 对 海量 数据 进行 有 效 的 处 理 进而 发 现 
有 价值 的 结构 (或 称 为 “模式 ”) 变 得 越 来 越 重要 。 探 索性 数据 分 析 与 在 没有 任何 先 验 知 
识 的 情况 下 找到 结构 化 的 信息 的 挑战 相关 : 在 这 种 情况 下 ， 从 没有 先 验 知识 的 数据 中 
学 习 的 技术 称 为 无 监督 机 器 学 习 (unsupervised machine learning) 。 

令 X=(zl，…，xzn)} 表 示 数 据 集 ， 例 如 一 组 图 像 集 ( 通 常 是 静态 的 ， 在 开始 分 析 时 
即 给 出 所 有 图 片 )， 我 们 寻找 其 中 数据 的 紧 致 子 集 ， 称 为 徐 ， 来 代表 数据 类 别 ( 例 如 ， 
汽车 图 像 的 铸 或 猎 图 像 的 徐 等 )。 每 个 数据 xz; EXX 表示 数据 空间 ， 通 常 为 XE R^ 
被 描述 为 属性 向 量 zx; 二 (zl ，…，z4)， 称 为 特征 向 量 。 采 用 符号 vi (表示 zx;”) 来 描述 
向 量 zx; 的 第 j 个 坐标 。 向 量 属性 可 以 是 数字 量 或 分 类 值 ( 即 定 性 属性 )， 如 字典 的 固定 
字 词 集 ， 或 有 序 分 类 数据 (如 有 序 排名 A 二 B 二 C 二 D 二 E), 或 上 述 不 同 数据 类 型 的 
混合 。 

探索 性 分 析 不 同 于 有 监督 分 类 (supervised classification)。 在 有 监督 分 类 的 第 一 阶 
段 ， 从 已 标记 的 训练 数据 集 Z= {Cry Cany | PRAPKRE BRC), KR 
中 zi 是 属性 ，y; 是 类 标签 ; 在 第 二 阶段 对 测试 集中 的 新 的 未 标记 的 观察 值 x; 进行 分 
类 : =C). y; 中 的 帽子 符号 表示 估计 的 类 别 ， 这 就 是 基于 训练 数据 集 的 所 谓 的 
推理 任务 。 

聚 类 是 一 组 技术 ,包括 检测 被 定义 为 群 组 或 徐 的 数据 子 集 。 这 些 组 应 该 可 以 理想 
地 表示 数据 的 语义 类 别 : 例如 ， 从 花卉 图 像 数 据 库 中 按 物 种 的 类 别 所 组 成 的 花 天 组。 
UCI 知识 库 引 提供 了 这 样 一 个 著名 的 公开 数据 集 ， 其 文件 名 为 Ivis?: 它 包 含 n=150 
个 四 维 数值 数据 (以 厘米 为 单位 分 别 描述 更 片 和 花瓣 的 长 度 、 宽 度 属性 )， 可 以 分 为 


日 ”可 在 https://archive. ics. uci. edu/ml/datasets. html 上 在 线 获得 。 
© http://en. wikipedia. org/wiki/lris flower data set, 
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k=3 个 植物 组 : Setosa SRE. Virginica S BEM Versicolor SBE. 
总 之 ,分 类 能 够 标记 新 的 观察 值 ， 而 聚 类 可 以 将 这 些 类 别 聚 合 为 簇 ( 见 图 7-1). 


图 7-1 探索 性 分 析 包括 查找 数据 集中 的 内 在 结构 ， 如 称 为 簇 的 数据 组 。 聚 类 是 一 组 寻求 
在 数据 集中 找到 同 构 簇 的 技术 。 在 这 个 2D 简单 示例 中 ， 人 了 眼 可 以 感知 到 三 个 组 
成 了 数字 的 结构 良好 的 簇 :“4”*4”*2”。 而 在 实际 当中 ， 数 据 集 通常 是 高 维 的 ， 
所 以 无 法 进行 肉眼 观察 。 因 此 ， 我 们 需要 聚 类 算法 来 自动 找到 这 些 组 


7.1.1 RE: 划分 数据 集 
划分 聚 类 (也 称 为 基于 划分 的 聚 类 ) 可 以 将 数据 X= Ges rns x, RUHR DE 
组 CGICX，…，CCX( 非 重要 复 G), ERIA : 
X—UiAaG S Visj Gi 1G; — 0 
X :一 UG, 
符号 a; =b 表示 应 该 通过 定义 来 理解 等 号 (也 就 是 说 ， 它 不 是 由 数学 计算 得 出 的 等 
式 )。 因 此 ， 将 一 个 数据 元 素 (数据 ) 分 配给 唯一 的 群 组 Gxx) 。 划 分 聚 类 是 一 种 硬 聚 类 
技术 ,与 其 他 软 聚 类 技术 不 同 ， 对 所 有 zi 和 Gics) 赋予 了 正 的 隶属 度 权 重 1,70, 3f 


4 Y, 二 1 ( 归 一 化 约束 ): HENX j= j=l RIH L= JERK 
j=l 
yn Xb RARER, 


7.1.2 成 本 函数 和 模型 聚 类 


找 出 数据 X = Ui G 中 的 一 个 好 的 划分 需要 能 够 评估 划分 的 聚 类 适应 度 
(fitness), 。 但 是 我 们 通常 会 反 其 道 而 行 之 ! 从 给 定 的 成 本 函数 寻求 一 个 有 效 的 算法 ， 
该 算法 通过 最 小 化 这 个 规定 的 成 本 函数 来 对 X 进行 划分 。 一 个 通用 成 本 函数 w(。，;， ，) 
(也 称 为 能 量 函数 、 损 失 函 数 或 目标 函数 ) 可 以 表示 为 每 个 群 组 成 本 的 总 和 ， 具 体形 式 
如 下 : 


k 
e, (X 3G, seee Gh) == Sacco 
i=l 
其 中 ，e (CC) 是 单个 群 组 的 成 本 函数 。 
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还 可 以 为 每 个 群 组 G; 关 联 一 个 模型 ci ， 它 定义 了 相应 簇 的 “中 心 ”>。 中 心 ci 的 集合 
称 为 原型 (prototype) ， 通 过 这 些 原型 可 以 定义 任何 数据 xE X 和 任何 徐 G( 相 应 的 原型 
为 c) 之 间 的 距离 如 下 : 

Dy(a2.G) = D(x.) 

函数 Dy (ax, G) ATOR x FN EFA AA Iz HR DR AY A EZ PB. PRK DC p. qo) 
根据 数据 集 的 性 质 定 义 的 基本 距离 。 也 就 是 说 ,我 们 有 Dy (x, G)— DG, c), Hc 
是 G 的 原型 。 

AXE & 个 原型 的 集合 C= 二 {a  ，…，c) ， 可 以 通过 以 下 形式 定义 划分 聚 类 的 总 体 成 本 : 

e, CX;C) = > min Dis; scj) 


其 中 ， 单 个 簇 的 成 本 定义 为 a (G,c) = >)D(z,c)。 对 于 每 个 单 中 心 簇 ,模型 聚 类 (也 


YECG 
称 为 基于 模型 的 聚 类 ) 会 引入 对 数据 集 X 的 划分 : GO= Ui G, HH G = {zxi€ 
XiD(G;, cj) &D(z;, c), VIE, +, E. 
存在 许多 聚 类 成 本 或 损失 函数 ， 从 而 产生 许多 不 同 种 类 的 划分 。 接 下 来 ， 我 们 将 
介绍 其 中 最 著名 的 上 均值 函数 ， 并 解释 为 什么 最 小 化 这 个 损失 函数 可 以 在 实际 应 用 中 
提供 很 好 的 聚 类 划分 。 


7.2 k 均值 目标 函数 


k 均值 (k-means) 成 本 函数 要 求 最 小 化 数据 点 到 其 最 近 原 型 中 心 的 平方 欧 几 里 得 距 
BZA: 


n 
e C0) = S min lz; — e; Il? 
je (1 k} 


ic] jElle, 


虽然 平方 欧 几 里 得 距离 Dlr, 0— | z 一 c ||? 是 对 称 不 相似 的 ， 并 且 当 且 仅 当 z= 

c 时 ， 它 等 于 零 ， 但 是 它 并 不 是 一 个 度量 标准 ， 因 为 它 不 能 满足 普通 欧 几 里 得 距离 的 
d 

三 角 不 等 式 : zx 一 c= | SG —60* 。 事实 上 ， 选 择 平方 欧 几 里 得 距离 而 不 是 普 
j=l 


3B OL HAS SRA RR Aa chh, BAAR e (G) =e, (G, o) 
的 成 本 是 最 小 的 ， 该 质量 中 心 称 为 质心 (centroid) : 


c(G): = argmin, >) la—cll? = "e 
r€G he] c 


HH, |G| 表示 G 的 基数 ， 也 就 是 群 组 C 中 所 包含 的 元 素 的 数量 。 我 们 使 用 符号 
argmin,f (xz) 来 表示 在 最 小 值 是 唯一 的 情况 下 产生 最 小 值 的 参数 9 。 


日 ”否则 ， 我 们 可 以 根据 X 上 的 一 些 字典 顺序 ， 来 选择 能 够 产生 最 小 值 的 “最 小 ”x。 
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因此 ， 最 小 成 本 为 el (G, = 2 || z—c(G) 上 *: =v(G), HH o(G) BR G 的 标 
准 方差 。 实 际 上 ，X 的 标准 方差 在 统计 学 中 被 定义 为 : 


v(X) = I lla; — z ||? 


其 质心 为 -iNa. 从 技术 上 讲 ， 我 们 经 常 在 文献 中 遇 到 无 偏方 差 公 式 uas OO. 一 
1 





HÈ 1 一 1? 但 对 于 固定 的 %， 有 偏 或 无 偏方 差 的 最 小 值 不 变 。 
我 们 可 以 将 d 维 点 云 的 方差 改写 为 ; 





该 公式 在 数学 上 与 随机 变量 X 的 方差 相同 : 
VEX] = EL(X —4(OX)* ] = ELX?’ ] - ELX D’? 
其 中 ，j(X) 二 ELXJ 表 示 随 机 变量 X 的 期 望 值 。 
我 们 可 以 为 X 中 的 每 个 元 素 x; 定义 一 个 正 的 权重 属性 w — wr) 0. [818 


>) ti = 1 (数据 权重 归 一 化 )。 
i=] 
以 下 定理 将 原型 c, FEN AA RA PU k=1, X=G). 
定理 3 假设 X 一 {(zal rior Go, 1r) C R^ 是 一 个 加 权 数 据 集 ， 其 中 必 二 0， 


Sw = 1 。 使 加 权 方 差 uC(X) = Dw, | zx 一 c 中? 的 最 小 的 中 心 c 是 唯一 的 重心 :ce 一 


1—] i=l 


d 
证 明 令 (t，y) 表 示 标 量 积 ; (roy) —r'y- Ny = (yx). 标量 积 是 对 称 的 双 
j= 
线性 形式 : (Xx 十 b,y) 二 《x,y) 十 (5,y)，AE 民 。 现 在 ,平方 欧 几 里 得 距离 Dlr, y)= 
la2—y ll? RT EAE EEURIS Dlr, y) G— yr y) Ge—2G. yt Gs». 
我 们 的 目的 是 最 小 化 min > wiz; 一 cvzi 一 c)。 在 数学 上 可 如 下 表示 该 优化 
cE R* i= 
问题 : 


min Siw, Gr Osa, — 
cE R i=] 


min Dw (Gc? rcr) 
ce Ra i= 


min ( Shy, Guam» j= (>) WL; e) (csc) 
ceR^ i=l i=1 
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我 们 可 以 从 上 述 最 小 化 公式 中 删除 w(x; eno 因为 其 与 c 不 相关 。 这 样 ， 最 
i=1 
小 化 公式 等 价 于 : 


minE(c): =— 2 (Dorie )+ (csc) 


cER i=1 

对 于 任意 cE LO, 01], BBR f(x) 满足 flart+(1—a)y)<efla)+U—a) fly). 
它 是 一 个 严格 的 凸 函数 ， 当 且 仅 当 对 于 任意 weE (0, 1), flart+U—a)y)<af(r)+ 
(1 一 a)f(y)。 图 7-2 是 严格 凸 函 数 的 示意 图 。 需 要 注意 的 是 ， 被 定义 为 几何 对 象 9 一 
{(xz, flz)): zER) 的 上 镜 图 (epigraph) 是 一 个 几何 凸 对 象 。 一 个 几何 西 对 象 满 足以 
下 性 质 : 连接 对 象 中 两 点 的 任何 线段 都 完全 位 于 对 象 内 部 。 

对 于 单 变 量 凸 函数 ， 至 多 存在 一 个 全 局 最 小 值 z* (例如 ，exp( 一 x) 是 严格 凸 函数 ， 
没有 最 小 值 )， 并 且 可 以 通过 将 导数 置 为 零 来 求 出 : (x* ) 二 0。 对 于 多 变量 实 值 函 数 ， 
我 们 用 .F(z) 表 示 其 梯度 ( 偏 导数 向 量 )，V2F (xz) 表示 Hessian 矩阵 (二 阶 导数 )。 平 滑 
函数 下 是 严格 凸 函 数 ， 当 且 仅 当 YV*F>-0， 其 中 Mo 表示 和 矩阵 M 为 正定 : Va, 
ZJMz>>0。 一 个 严格 凸 函数 最 多 允许 一 个 全 局 唯一 的 最 小 值 z+* ， 使 得 VF(zx* )==0。 












fe} 
aflx)+(1-a) fly) |-- 


flax(\-a)y) | 


f(x*) : ATLETER ; IT = ! 
x ax*(1-a)y x* 





y 





图 7-2 对 于 任何 xcE(0，1) ， 满 足 f(azd-(1—0)3) af Cz) -- ( —2) fly) BU PE f hà 
函数 的 示意 图 
我 们 设置 以 下 d 偏 导数 为 零 : 
d go) =— 2» wizi +2°,W7 € (1,7,d) 
dc i-l 
考虑 d^ 二 阶 导 数 ( 用 于 证 明 目 标 函 数 的 凸 性 ) 为 : 
d? . : 
L^ =j, ee 
qe C) HPL = jf, Vj € (1,4) 


成 本 函数 EE(c) 是 严格 凸 函数 ， 并 有 唯一 的 最 小 值 。 该 最 小 值 通过 置 零 所 有 偏 导 数 
求 得 : 
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de’ 
因此 ， 我 们 已 经 表明 ， 中 心 到 数据 点 的 平方 欧 几 里 得 距离 加 权 和 的 最 小 值 是 唯一 
的 重心 : 


d geo) = (ec = D wzi 
i=l 


go gy Uic; 
i=1 
M w= 二 时 ， 质 心 也 称 为 等 重心 (isobarycenter) 。 g 
RA 





图 7-3  k H3 (E ht AS a BBC Ab FER 80 f A A A Be 7) GBA ERR Bk 均值 聚 类 是 一 
种 模型 聚 类 ， 其 中 每 个 艇 与 一 个 原型 相关 联 ， 即 质量 中 心 或 质心 。 在 这 里 ， 我 
们 为 均值 选择 了 k==4 个 群 组 ， 其 中 簇 原型 和 质心 在 图 中 用 圆 盘 表示 


如 果 不 选择 平方 欧 几 里 得 距离 ， 而 去 选择 普通 欧 几 里 得 距离 ， 就 可 以 得 到 所 谓 的 
费 马 -韦伯 点 (Fermat-Weber point)， 从 而 泛 化 了 中 位 数 的 概念 。 中 位 数 也 称 为 几何 中 
值 (geometric median)? 。 虽 然 费 马 - 特 韦伯 点 是 唯一 的 ， 并 且 经 常用 于 设施 置 位 问题 
的 运筹 学 研究 ， 但 它 不 提供 封闭 式 解 决 方案 ， 不 过 可 以 进行 任意 精细 的 近似 。k 中 心 


X 3 (k-median clustering) 是 通过 最 小 化 成 本 函数 min, > minje ww lx; — 6; || 而 获 
i=] 


得 的 聚 类 (可 以 观察 到 k 均值 的 平方 欧 几 里 得 距离 已 被 普通 的 欧 几 里 得 距离 所 取代 ) 。 
需要 注意 的 是 ， 通 过 上 均值 和 中 位 数 两 个 不 同 的 方法 可 以 获得 完全 不 同 的 划分 。 实 
际 上 ， 对 每 个 簇 而 言 ， 质 心 位 置 可 能 与 其 中 位 数 不 同 。 此 外 ， 通 过 添加 一 个 异常 点 可 
以 很 容易 地 破坏 质心 。 一 个 异常 值 po 发 散 到 无 穷 大 ， 将 导致 质心 发 散 到 无 穷 大 ， 那 么 





© http://en. wikipedia. org/wiki/Geometric median, 
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我 们 就 说 质心 的 崩溃 点 为 0。 但 是 可 以 证 明 中 位 数 是 更 强大 的 ， 因 为 它 需要 || 个 异 


常 值 ( 即 大 约 50 反 的 异常 值 ) 将 质心 引导 至 ce。 因 此 ， 当 数据 集中 有 许多 异常 值 时 ，k 
中 心 聚 类 通常 是 首选 的 。 

找到 单个 簇 的 中 心 是 k= 二 1 聚 类 的 一 个 特例 。 利 用 平方 欧 几 里 得 距离 作为 代价 ， 我 
们 发 现 簇 中 心 是 属性 的 平均 值 ， 因 此 其 命名 为 : 上 均值 。 图 7-3 显示 给 定数 据 集 的 聚 
类 结果 。 这 个 图 是 用 尺 语言 ?中 的 以 下 代码 生成 的 : 


WWW source code: Example-kMeans.R 


& filename: Example-kMeans.R 

# k-means clustering using the R language 

N «— 100000 

x «— matrix(0, N, 2) 

x[seq(1,N,by = 4),] < morm(N/2) 

x[seq(2,N,by = 4),] <— morm(N/2, 3, 1) 

x[seq(3,N,by = 4),] «- morm(N/2, —3, 1) 

x[seq(4,N,by = 4),1] <— morm(N/4, 2, 1) 

x[seq(4,N,by = 4),2] «- morm(N/4, —2.5, 1) 

start.kmeans «— proc.time()[3] 

ans.kmeans «— kmeans(x, 4, nstart=3, iter.max-10, algorithm="Lloyd") 

ans.kmeans$centers 

end.kmeans «— proc.time()[3] 

end.kmeans — start.kmeans 

these «— sample(1:nrow(x). 1000) 

plot(x[these,1], x[these,2], pch="+", xlab="x", ylab="y") 

title (main="Clustering", sub="(globular.shapes.of clusters)", xlab-"x", 
ylabz"y") 

points(ans.kmeans$centers, pch-19, cex=2, col=1:4) 





7.2.1 985 k 均值 成 本 函数 以 对 聚 类 效果 进行 双重 解释 : RRRA RAK 
4 1 fk [8] 3 


k 均值 成 本 函数 寻求 小 方差 的 紧 致 球状 艇 。 实 际 上 ,成 本 函数 可 以 被 重新 解释 为 
最 小 化 簇 方差 的 加 权 和 ， 如 下 所 示 : 


n 
min >) min wlec]? 
Cale, t ec] j€ Yel 
k 
. min >; > wl) l= e 1^ 
CHE e RT 2G, 
k 
min W;v(G;) 
C=(e, + 1 


其 中 , Wi : = 3) w(x) RARBG, 中 元 素 的 累积 权重 ( 见 7. 12 节 ) 。 


r€ G, 


我 们 也 可 以 证 明 ， 将 聚 类 数据 划分 为 同 质 群 组 相当 于 将 X 的 数据 分 成 多 个 群 组 : 


"sy 


© TÆ https://www. r-project. org/ 上 免费 获得 。 
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实际 上 , A: = >) D | x; 一 x; ‖ ?表示 为 常数 ， 即 作为 内 点 平方 欧 几 里 得 距离 之 


iz-1$-5) 
和 (对 于 给 定 的 数据 集 而 言 是 固定 的 ， 并 且 与 无 关 )。 对 于 给 定 的 划分 ， 我们 可 以 将 
A 分 解 为 两 个 部 分 : 同一 簇 内 的 距离 之 和 以 及 两 个 不 同 簇 之 间 的 距离 之 和 : 
l 
A= > 人 Bj: | a; — z; I] * + EJ eee, e 
i=1 zz EG, zr €G,r€G, 
因此 ， 因 为 A 是 常数 (对 于 给 定 的 X)， 最 小 化 簇 内 平方 欧 几 里 得 距离 之 和 


i 


$9) M 中 zi 一 xz | ?. SOF RARE 7 ECL H (8 BE B M: 


i—Li z EG, 


l 
min >) = | 2; — 2; I? 
->G 


i=laz,€G, 


1 
-miA—3) Ð la-a N? 


i=12,€G,.2, €G, 
niis F 22. Nee ay 
© i-ix€G,.z€G, 
因此 ， 我 们 有 一 个 双重 描述 来 定义 一 个 好 的 聚 类 : 
。 聚 类 数据 成 为 同 质 群 组 ， 从 而 最 小 化 簇 方 差 的 加 权 和 。 
e 分 离 数 据 ， 以 最 大 化 簇 间 平 方 欧 几 里 得 距离 。 


7.2.2 均值 优化 问题 的 复杂 性 和 可 计算 性 


只 要 数据 维 数 ld>>1， 并 且 复 的 数量 & 之 1 时 ,寻找 一 个 k 均 值 成 本 函数 的 最 小 值 
就 是 NP 难 (NP-hard) 问 题 。 当 & 二 1 时 ,已 经 证 明 可 以 在 线性 时 间 ( 计 算 群 组 的 均值 ) 
计算 出 最 优 解 (质心 )。 当 d —1 时 ， 可 以 使 用 动态 规划 来 计算 最 优 的 均值 解 : 使 用 
OCnk) 内 存 ， 我 们 可 以 在 时 间 O(n*k) 内 求解 个 标量 值 的 kk 均值 (本 章 结尾 练习 题 进 一 
步 讨 论 细节 ) 。 

定理 4(k 均值 复杂 度 ) 当 E01 de dod 时 ， 找 到 最 小 化 k 均值 成 本 函数 的 划分 是 
NP 难 问 题 。 当 d=1 时 ， 可 以 使 用 动态 规划 求解 精确 的 k 均 值 ， 并 使 用 O(CR) 内 存 和 
O(n? k) BE ia, 

快速 回顾 一 下 ，P 类 问题 是 可 以 在 多 项 式 时 间 内 求解 的 一 类 决策 问题 ( 即 回答 是 / 
否 的 问题 )，NP 类 问题 是 可 以 在 多 项 式 时 间 内 验证 求解 的 一 类 问题 (例如 ，3-SATS ) 。 
NP 完全 (NP-complete) 类 问题 是 可 以 使 用 多 项 式 时 间 将 一 个 问题 归 约 为 一 个 NP 类 问 
题 进行 求解 的 一 类 问题 : BU XecvuwomaY，VYYENP。NP 难 类 问题 也 是 一 类 问题 ， 但 


O 3-SAT 问题 在 于 回答 一 个 带 有 3 个 字符 的 地 个 子 句 的 布尔 公式 是 否 可 以 满足 。3-SAT 是 一 个 著名 的 NP 
完全 问题 ( 库 克 定理 ，1971 年 ) ， 是 理论 计算 机 科学 的 一 个 基石 。 
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不 一 定 属于 NP 类 问题 ， 只 要 满足 3YENP EEC oynoma X 即 可 。 

由 于 下 均值 问题 在 理论 上 是 NP 难 的 ， 我 们 需要 寻求 有 效 的 启发 式 方法 来 得 到 一 
个 近似 成 本 函数 。 我 们 将 启发 式 方法 分 为 两 类 : 

(O0 4 & X X (global heuristics) 方 法 ， 该 方法 不 依赖 于 初始 化 。 

(2) 局 部 启发 式 (local heuristics) 方 法 ， 该 方法 可 以 从 一 个 解决 方案 (一 个 划分 ) 开 
始 迁 代 ， 并 使 用 * 主 元 规则 ?迭代 地 改进 此 划分 。 

当然 ， 我 们 需要 用 全 局 启发 式 方 法 来 对 局 部 启发 式 方 法 进行 初始 化 。 这 就 产生 许 
多 可 以 在 实际 应 用 中 获得 良好 的 k 均值 聚 类 的 策略 ! 寻找 新 颖 的 上 均值 启发 式 方法 在 
其 出 现 50 年 后 仍然 是 一 个 活跃 的 研究 课题 ! 


7.3 Lloyd 批量 k 均值 局 部 启发 式 方 法 


现在 介绍 著名 的 Lloyd 启发 式 方法 (1957 年 )， 它 将 给 定 的 初始 化 通过 以 下 两 步 进 
TER, HEM: 

。 将 点 分 配给 簇 。 对 于 所 有 z;EX, 4 l; =argmin, | X; C, | "s JF EFE k TRAE 

义 为 G; 一 {zi: =j), HP n; — |G | ， 表 示 X 中 的 元 素 落 人 第 7 MERR. 

。 更 新 中 心 。 对 于 所 有 的 j€ {1，…，k}， 更 新 中 心 直 到 获得 它们 的 簇 质心 : cj = 

L5 a (或 加 权 数据 集 的 重心 c, = 


2al — 
jr€G >) Wm) 
r€G, 


Al 7-418758 f Lloyd 算法 的 若干 次 迭代 过 程 
定理 5 Lloyd 的 均值 启发 式 方 法 在 有 限 次 迭代 之 后 单调 收敛 到 局 部 最 小 值 ， 其 


wlr)r). 


F n 
上 界 为 BF 
证 明 SGP, e, GO 表示 在 第 t 次 迭代 处 XX 的 划分 ， MAW eX. CO. 4 
GG,)=Wi1G?, RRE eR C, SLATE. de :十 1 次 迭代 中 ， 由 于 将 点 分 配给 
具有 最 小 平方 欧 几 里 得 距离 的 簇 ， 所 以 可 以 得 到 . 
动人 GE < et GC 
现在 回想 一 下 , k 均值 成 本 函数 等 于 簇 内 方差 的 加 权 和 : e (XG) = 


k 


DG ,cj) 。 当 将 簇 中 心 更 新 为 它们 的 质心 ( 即 ， 使 这 些 群 组 的 平方 欧 几 里 得 距离 


j=l 
达到 最 小 的 点 ) 时 ， 对 于 每 个 群 组 则 有 GETO, GIT? )<o(G, c). At, R 
们 得 到 : 

e, (X3G,4,4) Sel G A ,G,) « e CX3G,) 
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? i e 
- : : - 
e ' 
. . e . 
”” 输入 点 去 随机 种 子 初始 化 
a) 第 0 步 ， 给 定数 据点 集合 b) 初始 化 (第 1 步 ) ， 目 标 函 数 : 1280.0 
: TIS . 
. 9 e. 
多 r 
Ed 
E s | $ 
E 2 
i e ` e» 
. i * 
Š È 
将 点 分 配给 簇 新 的 中 心 = 质心 
c) 第 2 步 ， 目 标 函 数 : 1280.0 d) 第 4 步 ， 目 标 函 数 : 131.51 


图 7-4 Lloydk 均 值 算法 示意 图 : a) 输 入 数据 集 ; b) 簇 中 心 的 随机 初始 化 ; ce) 将 数据 点 
分 配给 簇 ; d) 中 心 重 定位 ， 直 到 算法 收敛 到 成 本 函数 的 局 部 最 小 值 


NF «OG C)>0， 并 且 不 能 在 O| |) 个 潜在 划分 中 重复 两 次 相同 的 划分 5 H 
以 必须 在 有 限 次 迭代 之 后 收敛 到 局 部 最 小 值 。 

现在 我 们 来 介绍 一 下 k 均值 聚 类 的 一 些 值得 注意 的 现象 。 

现象 1 虽然 Lloyd 启发 式 方法 在 实践 中 表现 非常 出 色 ， 但 已 经 发 现 ， 即 使 在 平 
面 d=2 情况 下 ， 最 坏 结 果 我 们 会 得 到 一 个 指数 级 别 的 适 代 次 数 '1 习 。 在 1D Hh, Lloyd 
的 上 均值 需要 QCm) 次 迭代 直到 收 化 中。 但 是 回想 一 下 ， 使 用 动态 规划 可 以 在 多 项 式 时 


间 内 解决 1D 情况 。 





4 k 
加 “将 于 个 元 素 分 成 个 非 空子 集 的 不 同 划分 的 数量 为 第 二 类 Stirling K: NL Den (; ye. 
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现象 2 即使 k 均 值 成 本 函数 具有 唯一 的 全 局 最 小 值 ， 也 可 以 存在 许多 划分 方案 
来 产生 该 最 小 值 (一 个 单一 最 小 值 对 应 很 多 最 小 值 参 数 ) 。 例 如 ， 考 虑 一 个 正方 形 的 4 


个 顶点 ， 对 于 & 一 2， 我 们 有 两 个 最 优 解 (平行 边 的 顶点 )， 现 在 将 该 正方 形 复制 二 2 份 ， 


每 个 正方 形 彼此 相距 很 远 ， 并 令 & 一 十 。 在 这 种 情况 下 ， 存 在 2 个 最 优 聚 类 。 


现象 3 在 某 些 情况 下 ， 以 发 式 方法 将 数据 点 分 配 到 簇 之 后 ,我们 
会 获得 空 装 。 虽 然 这 种 情况 在 实践 中 很 少 发 生 ， 但 是 它 的 概率 随 维度 的 增加 而 增 大 。 
因此 ， 在 实现 Lloyd k 均值 启发 式 算法 时 必须 小 心 处理 这 些 潜 在 的 空 篮 异 常 。 图 7-5 中 
给 出 了 这 样 一 种 情况 。 请 注意 ， 这 个 问题 实际 上 是 种 幸运 ， 因 为 我 们 可 以 选择 新 的 中 
心 点 ， 以 便 重新 初始 化 这 些 空 徐 ， 同 时 确保 进一步 降低 簇 方差 之 和 。 
Pom 将 点 分 配给 簇 e y» 为 空 ! 


ely vr 


图 7-5 Lloyd JH AX Jr tk P f 25 S S06. 艇 中 心 用 大 圆圈 表示 。 首 先进 行 初 始 化 ， 然 
后 进行 数据 点 分 配 、 中 心 重 定位 以 及 一 个 新 的 数据 分 配 步 骤 。 其 中 一 个 簇 变 为 
TER 


Lloyd 均值 是 一 个 局 部 启发 式 算法 ， 它 从 给 定 的 初始 化 开始 (由 初始 的 个 原型 
集 产生 的 ,或 者 以 能 够 得 到 质心 原型 的 给 定 起 始 划 分 产生 的 )， 并 保证 单调 收敛 到 局 部 
最 小 值 。 接 下 来 将 描述 一 些 初始 化 方法 ， 即 k 均值 的 全 局 启发 式 方法 。 


7 4 ”基于 全 局 启发 式 的 k 均值 初始 化 方法 


7.4.1 基于 随机 种 子 的 初始 化 方法 
M. X "P Bt Le PE RE 个 不 同 的 种 子 ( 例 如 ， 通 过 从 [nj] 二 {1，…，nn} 中 均匀 地 采样 


个 索引 )。 这 样 就 有 [r| 个 不 同 的 组 合 。 然 后 从 种 子 变 量 Ces ，…，ce} 中 创建 群 组 
划分 G(C)= 二 {G1，…，G}。 目 前 并 没有 理论 可 以 确保 e; (X，G) 接 近 全 局 最 小 值 


ef (X, G)=mince,(X, G). 因此， 为 了 增加 找到 一 个 好 的 初始 化 集合 的 几率 ， 并 尽 
量 保 证 距离 ef (X，G) 不 太 远 ， 可 以 初始 化 1 次 以 获得 种 子 集 合 Cl ，…，C,， 保 留 能 够 产生 
最 好 上 均值 成 本 的 种 子 。 也 就 是 说 ， 保 留 种 子 集合 C 其 中 1* =argmin,, CX; GC). 
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这 种 方法 有 时 称 为 Forgy 初始 化 方法 ， 该 方法 在 软件 包 实 现 中 需要 重新 启动 1 次 。 


7.4.2 全 局 k 均值 最 佳 贪心 初始 化 


在 全 局 上 均值 中 ， 首 先 随机 选择 第 一 个 种 子 c ， 然 后 贪心 地 选择 种 子 cs 至 o. S 
Ci 二 {a ，"…，6} 表 示 前 i 个 种 子 的 集合 。 选 择 c EX AURE eX, Cai) RA 
n 一 i 十 1 个 可 能 的 选择 ， 这 可 以 通过 穷 举 测 试 得 到 )。 最 后 ， 考 虑 所 有 nn 个 可 能 的 选择 
GST cs C1 二 Xs， 然 后 保留 最 好 的 种 子 集 。 


7.4.3 k-means 十 十 : 一 种 简单 的 概率 保证 的 初始 化 方法 


现在 考虑 一 种 基于 概率 的 初始 化 方法 ， 能 够 保证 以 很 高 的 概率 获得 一 个 好 的 初始 
化 。 用 ex C0 — mine; CX; C) —e; CX. C ) 表 示 基 均值 成 本 的 全 局 最 小 值 ， 其 中 
C* —arg min.e,(X; C), k 均值 的 (1 十 e) 近 似 可 由 一 组 原型 C 定义 ,使 得 : 

eg CX) Se CX,C) (leer (X) 

Begg. MI CT 至 多 为 Ite. 

根据 zx; 到 已 经 选择 的 种 子 的 平方 欧 几 里 得 距离 来 对 元 素 zi 进行 加 权 ， 以 此 让 
k-means 十 十 的 初始 化 迭代 地 选择 种 子 。 邻 D la, ORR x 5 C 中 元 素 的 最 小 平方 欧 
几 里 得 距离 : D’ (r, C)=min,e¢ ll z—c ||’. 

对 于 加 权 集 合 X，k-means 十 十 初始 化 过 程 如 下 : 

e 在 X 中 均 义 、 随 机 地 选择 c; 。 如 果 已 预先 对 X 进行 了 洗 牌 ， 那 么 设置 C++ 三 {cl)。 

e 对 于 i 二 2 Bk 

以 如 下 概率 选取 c; 二 xEX: 
wG)D* Cr, Cj) 

Mes ELIR 

Ce Ce Ule;} 

定理 6(k-means + t?) k-means 十 十 概率 初始 化 能 够 以 很 高 的 概率 保证 EB[e 
(X, Cy) <8(2+lng)er (X), 

也 就 是 说 ，k-means 十 十 具有 O(log &) 竞 争 性 。 符 号 OC + 28 VEL BO JE oT JE HR A 
概率 。 其 证 明 过 程 可 以 参考 文献 [3]。 在 这 里 ， 为 了 给 出 证 明 中 使 用 的 特别 技巧 ， 我 们 
将 在 R=1 个 位 的 情况 下 给 出 基本 证 明 过 程 。 也 就 是 说 ， 随 机 选择 一 个 点 xQ€ X. 9 
c' 表示 X 的 质心 。 

可 得 到 : 

Ble 00] = ry, 25 2] l2- Il? 


z,€ Xr€ X 


对 于 任何 =， 将 使 用 以 下 方差 偏差 分 解 : 
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M z—zl*— 5 la—e* |? =| XI le*— zl? 
rEX r€x 
因此 ， 可 以 推导 出 


Bley I= 1p DD ae? WHI Xl Lee et I 


xy EX «EX 


-2* | z—ec* ||? = 2er (X) 
r€X 


因此 ， 在 k=1 个 簇 的 情况 下 ,通过 在 X 中 均匀 、 随 机 地 选择 第 一 个 种 子 c ， 可 
以 保证 期 望 值 为 2 近似 。 


7.5 k 均值 向 量 量化 中 的 应 用 


7.5.1 向 量 量化 

在 向 量 量 化 (Vector Quantization，VQ) 中， 给 定 一 个 集合 X={zi，…，xz)， 我 
们 试图 用 词 向 量 os eo cy 进行 编码 。 这 个 词典 称 为 编码 本 。 定 义 编码 和 解码 功能 
如 下 : 


。 HMM iC +): x€ R^, sk), 

e fiti PR cC D. 

AS n FE A BER Pm 个 元 素 构 成 的 信息 C t XIETT RERO (4; € XO, 3B 
过 编码 函数 区。) 将 每 个 点 与 其 编码 i(z;) 相 关联 ， 相 应 的 编码 是 由 编码 书 中 的 个 词 
组 成 的 。 例如 ， 可 以 将 图 像 的 24 位 颜色 (使 用 3 个 颜色 通道 编码 ， 红 色 为 RR 绿色 为 
G, HEX B) 通 过 向 量 量 化 方法 量化 为 个 不 同 的 颜色 级 别 (k 均值 的 k 原型 应 用 在 所 
有 像素 颜色 上 )。 因 此 ,与 其 使 用 24m 位 对 规模 为 m — wo h 个 像素 的 图 像 进 行 编码 ， 
不 如 使 用 尺寸 为 上 的 调 色 板 (palette) 编 码 (R，G，B) 颜 色 ， 然 后 使 用 mXlog 上 位 ( 整 
个 图 像 的 内 容 ) 对 像素 颜色 进行 编码 。 这 样 可 以 节省 存储 空间 ， 并 缩短 通过 数字 通道 发 
送 图 像 的 通信 时 间 。 


将 颜色 量化 为 个 字母 的 字母 表 所 引入 的 失真 误差 为 E 一 二 了》) | zx 一 eCiCz)) ||? 
i=1 


也 就 是 均 方 误差 (Mean Square Error, MSE). 

k 均值 聚 类 允许 人 们 找到 可 以 最 小 化 (局 部 ) MSE 的 编码 本 ， 即 e CX. C)= 
v(X) —v(C), 在 这 里 ,方差 表示 信息 的 传播 ， 我们 力求 尽量 减少 这 种 信息 损失 。 实 际 
上 ， 可 以 按 以 下 方式 重 写 均值 成 本 函数 : 


z. k 
e OC = S, min | z; =c; | * = v(30 —0(C), Xt C = (Cn; ve; 15. 
i=] 7 一 


因此 ，k 均值 可 以 重新 解释 为 X 的 方差 与 其 以 & 个 中 心 C 进行 量化 之 间 差 异 的 最 
小 化 。 换 名 话说， 量化 要 求 最 小 化 个 字母 上 的 离散 随机 变量 的 方差 与 在 & 个 字母 上 
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的 离散 随机 变量 方差 。 方 差 可 以 看 作 信 息 ， 我 们 力求 最 小 化 这 两 个 随机 变量 之 间 的 信 
息 差异 。 在 信息 理论 (Information Theory, IT) 中 ， 这 与 速率 失真 理论 有 关 。 


7.5.2 Lloyd 的 局 部 最 小 值 和 稳定 Voronoi 划分 
对 于 所 有 x;E XX， 将 其 与 N 中 的 一 个 标签 (label) 相 关联 : 


lela) = PS eae I ze; I 

可 以 将 这 个 标签 功能 扩展 到 整个 空间 X， 获 得 一 个 称 为 Voronoi 图 的 的 划分 。 这 

个 空间 划分 如 图 7-6 所 示 。Voronoi 图 的 一 个 Voronoi 单元 Vi 可 以 定义 为 
V= ix € R*i|x—ce;jl < Ix—cel VEE (1m 

在 这 里 需要 注意 的 是 ， 平 方 欧 几 里 得 距离 或 普通 欧 几 里 得 距离 可 以 产生 相同 的 
Voronoi 图 ，Voronoi 图 能 够 将 空间 分 解 成 邻近 单元 。 事 实 上 ， 如 果 在 基本 距离 上 应 用 任何 
严格 单调 的 函数 ，Voronoi 单元 都 不 会 改变 。 平 方 函数 就 是 民 + 上 单调 函数 的 一 个 例子 。 

现在 ， 我 们 注意 到 ， 一 且 Lloyd BJ k 35 &UmB AX Zr ik RAW, FRAG, 就 会 产生 
—^r Voronoi 划分 ， 并 且 这 些 群 组 的 凸 包 (Cco) 两 两 不 相交 : Wij, co(G,)co(G,)= 
OH. 


n 


co(X) = [ser J An A 1 20! 


zr EX i=] 






pil py 


< q|Ic(q)-3 





n 


图 7-6 did kAd C 引 入 的 Voronoi 图 ( 称 为 发 生 器 ) ， 以 及 由 C 引 入 的 和 的 Voronoi 划分 


7.6 k 均值 的 物理 解释 : 惯性 分 解 


RMA X=((2;, w) h 表示 位 于 位 置 x; 处 权重 为 w; 的 n 体质 量 。 在 物理 学 中 ， 
惯性 的 概念 是 度量 物体 在 给 定点 移动 时 的 阻力 。 我 们 测量 点 云 X 的 总 惯性 I(X), 为 X 


k 
中 的 点 相对 于 其 质心 c = P wur, 的 平方 欧 几 里 得 距离 之 和 ， 
i=l 
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IX): = J w; lz —e ll? 


i=l 

因此 ， 当 我 们 增加 点 上 的 质量 时 ， 惯 性 也 会 增加 ( 即 点 集 围 绕 其 质心 转动 变 得 更 加 
困难 )。 同 样 ， 当 点 远离 质 必 时 ， 其 围绕 质心 旋转 也 变 得 越 来 越 困 难 。 因 此 , 上 均值 可 
以 在 物理 上 重新 解释 为 识别 上 个 群 组 的 任务 ， 使 得 这 些 群 组 相对 于 它们 的 重心 的 惯性 
之 和 最 小 。Huygens 公式 报告 了 系统 总 体 惯 性 与 其 分 解 之 间 的 不 变量 或 恒等式 ， 分 解 
是 指 群 组 内 惯性 之 和 加 上 群 组 间 惯 性 : 


定理 7(Huygens AR: 惯性 分 解 ) 总 惯性 I(X) = SI lr; ||? E IC 
i=] 


k k 
Jinter(C)， 其 中 群 组 内 惯性 IO = DIG, = >) >) wj | x; —c, ||? , EZ I CHE 
i=l ENGA 


k 
I4 (OO = XW; lle; —c ||? OAS O.W; = Dwl). 
i=l 


r€G, 
图 7-7 显示 了 具有 相同 总 惯性 的 两 种 惯性 分 解 。 由 于 总 惯性 是 不 变 的 ， 所 以 使 群 
组 内 惯性 最 小 化 等 价 于 群 组 间 惯 性 最 大 化 。 


组 内 惯性 
总 惯性 = + 
组 间 惯 性 
图 7-7 点 集 质 量 系 统 的 总 惯性 通过 群 组 分 解 之 后 是 不 改变 的 。k 均值 优化 了 分 解 使 得 群 


组 内 惯性 最 小 
7.7 均值 中 kk 的 选择 : 模型 选择 


直到 目前 为 止 ， 我 们 假定 簇 的 数量 是 预先 确定 的 。 但 是 在 实践 中 并 不 是 这 样 ， 
当 进 行 探索 性 数据 分 析 时 , k 也 同样 需要 猜测 。 找 到 正确 的 A 值 是 一 个 重要 的 问题 ， 
这 在 文献 中 称 为 模型 选择 。 对 于 上 的 任何 值 ， 我 们 可 以 考虑 使 用 最 优 k 均值 成 本 函数 
efx《X)( 可 以 在 实践 中 根据 经 验 估算 ,例如 使 用 Lloyd 启发 式 方法 进行 几 次 初始 化 )。 
需要 注意 的 是 ，e (X) 单 调 递 减 直到 达到 e, (X) 二 0( 在 这 种 情况 下 ， 每 个 点 都 被 简单 地 
分 配给 它 自己 的 簇 )。 


7.7.1 基于 肘 部 法 则 的 模型 选择 
为 了 正确 地 选择 & 值 ， 可 以 使 用 所 谓 的 肘 部 法 则 (elbow method)。 这 是 一 个 可 视 
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化 的 过 程 : 首先 ， 我们 绘制 函数 (&,e:(X))， 其 中 ELn] 二 {1,…,n}， 并 选择 上 来 定 
义 拐点 : 肘 部 (将 前 臂 与 后 臂 分 开 )。 选 择 这 个 值 的 原因 是 ， 对 于 小 的 & 值 ， 簇 方差 
的 总 和 迅速 减 小 ， 然 后 从 一 些 值 开 始 ， 方 差 的 和 表示 为 平稳 状态 。 由 于 函数 O0 — 
et(X) 看 起 来 像 实 际 数据 集 (平稳 状态 为 前 臂 ) 的 手臂 ， 所 以 这 种 可 视 化 检查 方法 被 称 
为 “ 肘 部 法 ”: 肘 部 返回 最 佳 簇 数 ( 见 图 7-8)。 这 种 方法 的 一 个 缺点 是 它 在 计算 上 非常 昂 
贵 ， 有 时 (取决 于 数据 集 ) 急 剧 下 降 和 平稳 状态 之 间 的 拐点 不 是 很 明确 ! 





k35 fü El bs pfe, CX) 





图 7-8 使 用 肘 部 法 选择 E. 肘 部 定义 了 将 快速 下 降 区 域 (后 臂 ) 与 平稳 区 域 (前 臂 ) 分 开 的 & 值 


7.7.2 模型 选择 : Ak 解释 方差 减少 


我 们 计算 & 个 类 别 解释 的 方差 比率 : 
Le CR) 


R?(k) = 
total 
= 2 ' R’ CR) r 
我 们 得 到 O<R* (D x1, 然后 选择 能 够 使 比值 0 二 最 小 化 的 : 
nn EOD 
" = arg min zie 35) 


RAEN TP PEAS AY 7; EO X FE IE A AO AA. BOER. EPL, k 
表示 模型 的 复杂 度 ， 因 此 上 的 选择 问题 也 称 为 模型 选择 问题 。 目 前 也 存在 一 些 不 需要 
事先 知道 就 可 以 执行 聚 类 的 算法 。 例 如 ， 吸 引子 传播 (Affinity Propagation) #4) 
就 是 这 样 一 种 比较 流行 的 算法 ,或 均值 的 快速 凸 松弛 最 小 化 方法 加 也 属于 这 类 
算法 。 


7.8 集群 上 的 并 行 k 均值 聚 类 


有 许多 种 方法 可 以 在 计算 机 集群 上 设计 Lloyd k 均值 启发 式 算法 的 并 行 版 本 : 也 
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就 是 在 一 组 互 连 的 机 器 上 ， 这 里 我 们 将 其 视 为 具有 分 布 式 内 存 的 “超级 计算 机 ”( 每 个 机 
器 具有 一 个 本 地 内 存 )。 像 往常 一 样 ， 为 了 简单 起 见 ， 我 们 认为 每 个 计算 机 都 有 一 个 处 
理 核 (处 理 单元 ) ， 并 且 将 一 个 节点 与 每 个 机 器 相关 联 ， 以 便 通过 一 个 图 来 描述 通信 链 
路 。 这 些 不 同 的 处 理 器 通过 使 用 MPI( 消 息 传递 接口 ) 发 送 和 接收 消息 来 相互 通信 。 发 
送 消息 的 通信 成 本 分 为 两 个 部 分 : 一 部 分 用 于 初始 化 通信 的 延迟 ， 另 一 部 分 与 消息 的 长 
度 成 比例 。 发 送 结构 化 数据 首先 需要 在 发 送 方 节点 发 送 (编码 ) 之 前 将 其 序列 化 为 通用 的 
“字符 串 ”， 并 在 接收 方 节 点 重新 构建 该 字符 串 ( 对 字符 串 进行 去 序列 化 以 重 构 结 构 ) 。 

k 均值 聚 类 问题 可 以 通过 属性 数量 ( 即 数据 点 云 的 维 数 ) 、 数 据 元 素 的 数量 n 和 簇 
数 & 来 表征 。 我 们 假设 kn, R=o(n)), RAR Pa eB O(ak) 的 存储 空间 ， 这 
样 就 可 以 将 所 有 得 中 心 存储 到 每 个 机 器 的 本 地 内 存 中 。 因 为 实际 上 内 存 (RAM) 是 固定 
的 ( 即 O(1))， 这 意味 着 我 们 在 理论 上 需要 考虑 = 二 OC(1)kk 的 特殊 情况 。 然 而 ,与 & 相 
E, WR n 的 数量 被 认为 是 非常 大 的 ， 因 此 需要 在 已 个 处 理 器 之 间 分 配 整 个 数据 集 X 
(因为 X 不 能 完全 存储 在 单个 计算 机 的 RAM 中 )。 

为 了 设计 一 个 简单 而 高 效 的 并 行 均值 启发 式 算法 ， 我们 依赖 于 以 下 可 组 合 性 /可 
分 解 性 定理 。 

定理 8( 重 心 的 可 组 合 性 ) 4X, de X, 是 两 个 加 权 数 据 集 ， 其 各 自 的 总 权重 你; > 
OHW,>0, AWA: 





W, 
元 (Xi ) 十 LEX) 


rOX;U X, = WW. 


awr- 
Wi +W, 

其 中 元 (Xi) 表 示 Xi 的 重心 ，iE(1，2)。 

该 性 质 对 于 将 一 个 X 划分 上 的 质心 计算 分 解 成 已 个 子 集 XI ，…，X，, 至 关 重 要 ， 
其 中 是 处 理 器 (或 集群 机 器 ) 的 数量 。 算 法 5 的 伪 码 中 描述 了 相应 的 并 行 算法 。 

在 运行 时 ， 每 个 处 理 器 通过 使 用 函数 MPI_Comm_size() 获 得 集群 的 总 体 处 理 器 
数量 ， 并 通过 使 用 标准 MPI PRX MPI_Comm_rank() 获 得 在 0 和 了 一 1 之 间 进 程 索 引 
的 序号 。 处 理 器 Pu( 根 机 器 ) 的 任务 是 初始 化 上 个 复原 型 ， 并 使 用 原 语 MPI_Bcast 
(C， 根 处 理 器 ) 将 其 广播 到 所 有 其 他 处 理 器 。 然 后 我 们 使 用 一 个 while 结构 进行 循 
环 操作 直到 收敛 : 每 个 处 理 器 Pi 计算 其 数据 X, 所 在 群 组 的 标识 、 与 已 对 应 的 & 个 
群 组 的 向 量 的 累加 和 以 及 每 个 簇 的 本 地 基数 。 然 后 ,我 们 使 用 MPI 原 语 MPI_A11- 
reduce 聚合 并 广播 所 有 这 些 群 组 基数 。 可 以 在 一 组 二 元 运算 符 ( 例 如 十 或 min) 中选 
择 聚 合 操作 ( 即 关 联 和 交换 )。 我 们 将 此 三 元 操作 指定 为 MPI JAS MPI Allreduce 
的 参数 : 这 里 ，MPI_SUM 表示 累加 和 操作 。 由 于 与 机 器 相关 联 的 部 分 数据 集中 的 某 
些 簇 可 能 为 空 ， 因 此 我 们 在 计算 局 部 质心 时 需要 考虑 到 这 些 情况 (参见 算法 5 中 的 
max(n;, 1)), 

使 用 OpenMP! C 语言 API 的 完整 源 代码 在 语法 上 与 算法 5 中 的 伪 代 码 略 有 不 同 ， 
因为 MPI 原 语 的 参数 还 要 求 设置 消息 的 长 度 ， 以 及 要 传送 的 数据 的 类 型 等 。 

在 这 个 上 均值 的 分 布 式 实现 中 ,我 们 通过 最 优 加 速 比 也 来 优化 串 行 代码 。 
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/* Distributed k-means clustering in MPI 
p = MPI Comm size(); 
r = MPI Comm rank(); 
previousMSE — 0; 
/* Mean Square Error, the cost function for the k-means 
MSE = oc; 
if r = 0 then 
/* Initialize randomly the cluster seeds 
Initialize C = (ci 
MPI Bcast(C, 0); 
end 
while MSE Æ previousMSE do 
previousMSE — MSE; 
MSE' — 0; 
for j = | tok do 


for i = r(n/p) to (r + 1)(n/p) — 1 do 

for j = [tok do 
| Calculate d; ; = d?(xi. mj) = lxi — mj? 

end 
Find the closest centroid m; to x;: / = arg min; dj, j; 
/* Update stage 
m; =m) + xi; 
n =n, +1; 
MSE’ = MSE’ + d? (xi, mj); 

end 

/* Aggregate: make use of the composability property of 
centroids 

for j = 1 tok do 
MPI_Allreduce(n’; , nj, MPI_SUM); 
MPI_Allreduce(m’; ,mj, MPI_SUM); 
/* To prevent dividing by zero 
nj = max(nj, 1); 
mj = mj/nj; 

end 

/* Update the cost function 

MPI Allreduce(MSE', MSE, MPI SUM); 

end 





算法 5 基于 MPI 的 Lloyd 并行 k 均 值 启发 式 算法 


7.9 评估 聚 类 划分 


为 了 评估 各 种 聚 类 技术 的 性 能 (如 各 种 均值 局 部 /全 局 启发 式 算法 )， 重 要 的 是 有 
真实 标注 数据 集 (ground-truth dataset)， 可 以 告知 每 个 数据 元 素 是 否 是 真 的 簇 成 员 。 
没有 这 些 真 实 标注 数据 集 ， 我们 只 能 对 聚 类 方法 进行 主观 或 定性 评估 。 虽 然 在 2 维 中 ， 
通过 人 眼 可 以 评估 所 获得 的 聚 类 是 否 良 好 ， 但 在 维度 d>3 的 情况 下 将 变 得 不 可 视 化 。 

当真 实 标注 数据 集 ( 例 如 ， 由 专家 标注 的 数据 集 ) 可 用 时 ， 我 们 可 以 计算 各 种 度量 
标准 ， 这 些 度量 标准 是 衡量 两 个 划分 相似 度 的 量化 值 : 其 中 一 个 划分 是 源 自 对 真实 数 
据 集 进 行 专家 标注 而 来 (假定 为 最 佳 聚 类 )， 另 外 一 个 划分 是 通过 自动 聚 类 算法 获得 的 
聚 类 结果 。 
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7.9.1 兰 德 指数 


兰 德 指数 (1971) 可 以 计算 两 个 划分 的 相似 度 : + G— UG, MG'=UG’, 分别 为 kk 
均值 启发 式 算法 和 真实 标注 数据 集 的 簇 分 解 结果 。 


我 们 比较 所 有 的 | "| 个 (zx;，zz;) 的 点 对 ， 并 将 那些 被 发 现 属于 同一 簇 (4) 的 点 对 与 那 
些 被 发 现 属于 不 同 簇 (6) 的 点 对 进行 计数 。 因 此 我 们 得 到 位 于 区 间 L0，1 的 兰 德 指数 : 





a+b 


n 
i 
其 中 
ea: 8(G, j): Ma)=la;) AU (a) Sl Ca) h 
e b; EGG, i DAL) Al GOSEÜ G0), 
其 中 !(cot) 和 上 (cot) 是 真实 标注 数据 聚 类 和 自动 聚 类 的 两 个 簇 标记 函数 。 
符号 : condition, A condition 表示 若 这 个 公式 结果 为 真 ， 则 两 个 条 件 均 必须 为 真 
(逻辑 与 运算 符 ) 。 我 们 需要 指出 ， 兰 德 指数 避免 了 我 们 为 了 使 这 两 个 划分 相互 兼容 而 
重新 标记 个 组 : 否则 实际 中 这 种 情况 将 存在 Al! 个 需要 重新 标注 的 置换 ， 因 此 在 实践 
中 它 是 不 易 计 算 的 (因为 &! 随 着 & 星 指数 级 增长 ) 。 在 实践 中 经 常 使 用 一 种 更 复杂 的 
兰 德 指数 实现 ， 称 为 调整 兰 德 指数 (adjusted Rand index) 。 


Rand(G,G ) = 


7.9.2. 归 一 化 互信 息 


归 一 化 互信 息 (NMI) 是 在 信息 理论 中 明确 定义 的 概念 。 令 万” 了 一 (ZEGCi Are 
Gi} 。 那么 NMI 定义 如 下 : 














k K 
| 21 3n, dog As 
v joy C era 
NMI(G,G ) = S555 
n; 2 n; 

( 3n;log 74) (SI jlog Za) 
J J 
I(X;Y) 

/H(X) HCY) 


EPIX; Y #7 WU BLE 8t 2r [8] B fe) HC * OR BL a) fei dili C Shan- 


non entropy), 


7.10 注释 和 参考 


我 们 描述 了 通过 最 小 化 成 本 函数 来 进行 数据 聚 类 的 方式 ,其 中 成 本 函数 是 个 簇 
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的 簇 内 方差 的 总 和 。 历 史上 ，, kk 均值 方法 是 由 Hugo Steinhaus[7] 首 先 引入 (通过 研究 
物体 的 惯性 )， 并 且 在 后 来 被 独立 重新 发 现 了 很 多 次 (如 向 量 量化 、VQ 等 )。 本 章 中 描 
述 了 常用 的 均值 技术 。K 均值 的 完整 描述 需要 参照 相关 的 教材 ! 基于 成 本 函数 ， 可 
以 获得 有 效 的 优化 算法 ， 并 且 所 获得 的 聚 类 方法 可 以 适用 于 多 种 数据 集 。 实 际 上 ， 当 
人 们 用 公理 化 方法 描述 一 个 好 的 聚 类 的 特性 时 ， 可 以 发 现 并 不 存在 任何 成 本 函数 来 优 
化 和 满足 这 些 特性 "中 ( 另 见 文献 [9，10])。 

Lloyd 批量 启发 式 方法 在 文献 L11] 中 首次 提出 。 在 实际 应 用 中 ，Hartigan 的 单 互 
换 启 发 式 ( 如 7. 12 节 所 述 ) 越 来 越 受 欢迎 ， 因 为 它 比 Lloyd 的 方法 更 有 效率 并 且 可 以 达 
到 更 好 的 局 部 最 小 值 。k-means 十 十 概率 初始 化 可 以 追溯 到 2007 年 。 文 献 L[12] 中 描述 


T k 均值 确定 性 初始 化 方法 : 在 时 间 OCe 77 4n login) 中 得 到 一 个 (1 十 6 近似 。 在 NP 
难 问题 中 ，k 均值 是 非常 “容易 ”近似 求解 的 ， 因 为 它 有 多 项 式 时 间 近 似 方案 (Polyno- 
mial Time Approximation Scheme, PTAS), 也 就 是 说 ， 对 于 任意 60. EBM 
时 间 中 ， 可 以 得 到 均值 成 本 函数 的 (1 十 e) 近 似 。 

文献 [14] 使 用 MPI 在 分 布 式 内 存 并 行 架 构 上 实现 了 均值 。Lloyd 启发 式 方法 在 每 
个 阶段 进行 簇 中 点 的 更 新 (批量 飞 均值 ): 每 个 点 重新 定位 之 后 也 可 以 逐个 点 进行 更 新 。 
这 正 是 7.12 节 中 提 到 的 MacQueen 启发 式 方法 ![151 。k-Means 十 十 本 质 上 是 一 个 串 行 算法 ， 
并 且 在 文献 [16] 中 已 经 提出 了 其 并 行 化 的 方法 ， 称 为 k-means | 。 如 今 ， 随 着 大 数据 集 的 
广泛 使 用 ， 人 们 甚至 试图 对 数 十 亿 ( 忆 个 秘 的 大 数据 集 [7 进 行 聚 类 。 核 心 集 近似 技术 [9 
允许 通过 将 精确 成 本 函数 的 最 小 化 进行 可 控 近 似 ， 从 而 将 规模 非常 大 的 数据 集 减少 为 
规模 比较 小 的 数据 集 。 文 献 L19] 中 
已 经 提出 了 另 一 种 核心 集 并 行 构造 
方法 。 数 据 聚 类 中 的 另 一 个 热门 话题 
是 能 够 在 不 同 实体 之 间 进 行 数 据 聚 
类 ， 同 时 保证 原 数 据 元 素 的 隐私 性 。 
文献 [20] 提 出 了 使 用 Lloyd k 均值 启 
发 式 方法 对 重 直 划分 数据 进行 隐私 
保护 的 数据 聚 类 方法 。 

KIA sh y T k 118 H br K 
数 的 目的 是 检测 球状 复 。 虽 然 k 均 





值 在 实践 中 经 常 被 使 用 ， 但 它 不 是 “215 z 0.5 0 05 1 1.5 
(到 目前 为 止 ) 通 用 的 聚 类 解决 方案 。 ”图 7-9 均值 无 法 将 数据 集 有 效 聚 类 成 两 个 外 的 示 
例如 ,图 7-9 显示 了 通过 人 类 眼 脑 例 。 实 际 上 ，k 均值 仅 限 于 处 理 那些 具有 不 
系统 就 能 够 进行 聚 类 的 数据 集 ; 然 相交 组 凸 包 的 Yoronoi 划分 。 在 实际 应 用 中 ， 
而 对 于 这 类 数据 ，k 均值 方法 将 不 这 种 数据 集 使 用 核 聚 类 方法 进行 聚 类 





蝗 、 垂 直 划 分 意味 着 每 个 实体 只 有 一 个 属性 块 。 
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能 获得 有 效 的 划分 。 这 是 因为 k 均 值 只 能 获取 Voronoi 划分 。 这 种 数据 集 是 可 以 使 用 
核 Ok 均值 ?来 处 理 的 。 


7.11 总 结 


探索 性 数据 分 析 在 于 发 现 数据 集中 的 结构 ， 从 而 获得 这 些 数据 集 的 知识 。 聚 类 是 
将 数据 分 成 同 质 群 组 的 一 组 技术 ， 从 而 允许 人 们 发 现 数据 集中 的 分 类 ， 每 种 分 类 具有 
潜在 的 语义 含义 。k 均值 聚 类 要 求 通过 向 每 个 群 组 分 配 一 个 中 心 来 最 小 化 簇 内 方差 的 
加 权 和 ， 秘 的 中 心 即 为 聚 类 的 原型 ， 起 到 对 艇 进行 建 模 的 作用 。 也 就 是 说 ，k 均值 聚 
类 是 一 种 基于 模型 的 聚 类 。 最 小 化 k 均值 目标 函数 通常 是 NP 难 问题 ， 而 著名 的 Lloyd 
启发 式 方法 则 是 重复 以 下 两 个 步骤 直到 收敛 : ORME ADP MARIN RPL; 
(2) 通 过 将 中 心 ( 原 型 ) 设 置 为 簇 质心 来 更 新 簇 中 心 。Lloyd 启发 式 方法 确保 单调 收敛 到 
局 部 最 小 值 ， 其 特征 在 于 能 够 由 簇 中心 形 成 Voronoi 划分 。 由 于 我 们 无 法 事先 知道 簇 
的 数量 ， 需 要 执行 模型 选择 方法 对 其 进行 预 估 : 常用 的 经 验 法 则 是 选择 能 够 保证 
和 十 1 时 的 簇 内 方差 之 和 比值 最 小 化 的 & 值 ， 这 可 以 在 视觉 上 将 其 解释 为 肘 部 (因此 
命名 为 肘 部 法 则 )， 即 成 本 函数 e;(，) 曲 线 图 中 的 拐点 。Lloyd k 均值 算法 可 以 通过 使 
用 MPI 和 质心 分 解 特性 在 分 布 式 内 存 架 构 上 进行 并 行 化 ， 划 分 为 群 组 的 数据 集 的 质心 
(或 重心 ) 相 当 于 计算 多 个 群 组 的 质心 (或 多 个 群 组 的 重心 ) 的 重心 。 

Lloydk 均值 算法 的 代码 processing 

图 7-10 显示 了 processing. org 程序 的 快照 。 








WWW source code: kmeansLloydProcessing.pde 





Fl 7-10 Lloyd k 均值 启发 式 算法 的 代码 processing 的 快照 


O 在 数学 上 总 是 可 以 通过 使 用 核 映射 将 特征 提升 到 更 高 的 维度 来 分 离 数 据 。 
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7.12 练习 


练习 1( 带 有 非 归 一 化 正 权 重 的 重心 和 方差 ) 
e 对 于 数据 集 X— (ns +, x WEHE w= (wm, n. w € R4 (未 归 一 化 为 1),， 证 明 当中 心 


选择 重心 工时 ， 相 对 于 中 心 的 平方 欧 几 里 得 距离 加 权 和 Xu, lzel’ 最小， 重心 也 为; 
== We 
其 中 W 二 Siw, 是 权重 的 总 和 ， 而 非 归 一 化 方差 可 以 表示 为 ， 
«Ow. Ye, | z rl’ = dw, pz || we" 


。 可 以 观察 到 该 公式 相当 于 在 经 典 ( 归 一 化 权重 ) 公 式 中 采用 标准 化 权重 9. y 


o 当 一 些 权重 为 负数 时 会 发 生 什么 ? 我 们 还 能 保证 最 小 值 的 唯一 性 吗 ? 
e 推导 重心 的 组 合 性 公式 : $X ico. BRAS ARBRE W, 的 上 个 加 权 数 据 集 。 证 明 : 





其 中 xz(X,) 是 X, 的 重心 。 
练习 2( 标 量 (d 二 1) 的 质量 中 心 ) 证 明 算 术 平 均值 (arithmetic mean) c = 1Sa 也 是 均衡 中 心 ， 
因为 我 们 有 以 下 性 质 ， 
PY e-r) = D(z) 
练习 3( 偏 差 -方差 分 解 ) SUX = 3) lesel? MOSA, D. bz — L3 s. 


e 证 明 WX, z)—9w(X)nl|l x—z||. HESEH BUD FATWA CX, z). 

e 将 该 分 解 方 法 证 化 到 加 权 点 集 Xo— (ns w,)},0 

e 将 X 看 作 离 散 随 机 变量 ， 并 证 明 任意 随机 变量 的 偏差 -方差 分 解 公式 。 

练习 4(k 中 心 点 (也 称 为 离散 上 均值 )) 我 们 通过 约束 原型 c 属于 数据 元 素 z, 来 最 小 化 k 均值 成 
本 函数 。 

e 使 用 偏差 -方差 分 解 证 明 k 中 心 点 的 最 佳 成 本 至 多 是 k 均值 的 最 佳 成 本 的 两 倍 。 

e 设计 kk 均值 的 启发 式 方法 ， 其 中 原型 被 约束 为 属于 初始 数据 集 ( 批 量 分 配 ) 。 

e 给 出 启发 式 方法 的 最 大 迭代 次 数 的 上 界 。 

练习 5( 徐 内 距离 最 小 化 和 和 著 间 距离 最 大 化 ) AR X— (na +, ox E nA ZUR CX 4r 28 T8 HSH 
f. Der, 20220 是 任意 两 个 元 素 x, EX 和 x; EX 之 间 的 相 异 度 函 数 。 证 明 ， 对 于 给 定 的 划分 ( 即 ， 将 


X 划分 为 上 个 艇 CC ，…，C,)， 簇 内 两 两 之 间 的 距离 >) S DG, c) 的 最 小 化 等 价 于 使 徐 间 距离 最 


l=} ECx EC, 


大 化 >) 31 DDC ,mn )。 对 于 分 类 属性 数据 集 ， 可 以 考虑 使 用 Jaccard BERE D(z,， 51a] (3E 
t=t EC r EC ' A 


且 使 用 7. 12 节 中 描述 的 中心 点 技术 进行 聚 类 。 
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练习 6(MacQueen Aè k 均值 启发 式 算法 "5 ) MacQueen 局 部 k 均值 启发 式 方法 通过 将 数据 点 
逐个 分 配给 艇 来 迭代 地 更 新 艇 原型， 直到 收敛 : 
e PRE c-r. 其 中 3 二 1,，*…,，k。 
© 以 循环 序列 增 量 式 分 配 数 据 元 素 xz, ，…，z, 直到 收敛 一 一 分 配 二 给 距离 最 近 的 的 簇 C 的 中 心 
c;， 并 更 新 该 中 心 ， 我 们 从 当前 中 心 移 除 x, 并 将 其 分 配给 新 的 中 心 。 
e 证 明 以 下 中 心 更 新 公式 ， 
Cias ee es s = Ny. =g 
l(x,) = arg min, || z, — c, II? 


} 
Nir Cka) T Ti 


Cura 7 =A Rus) 67 T, TR 
nu. 


e 证 明 该 方法 获得 的 局 部 最 小 值 与 Lloyd 批量 k 均值 的 局 部 最 小 值 相 匹配 。 

€ MacQueen 启发 式 算法 的 复杂 度 是 多 少 ? 

练习 7(Hartigan 的 k 均值 启发 式 方法 ;将 一 个 点 从 一 个 答 交 换 到 另 一 个 稚 辐 ) 我 们 提出 以 下 和 迭代 k 
均值 局 部 启发 式 方法 :; 以 循环 顺序 逐个 考虑 元 素  。 对 于 给 定 的 当前 隶属 于 艇 Go 的 数据 点 2, 4B 
仅 当 上 均值 成 本 函数 降低 时 ， 我 们 可 以 将 c 移动 到 另 一 个 能 G 中 ， 其 中 Lz) 二 arg mine su || zo, l^. 

(1) 数 学 符号 AG, DRR: 4x, AG RBG, 时 ， 成 本 函数 的 增益 。 对 于 zx, AWB Gs X 
换 至 目标 簇 G,， 证 明 以 下 公式 ; 


n, 


5,--1 

(2) 证 明 Hartigan 的 局 部 最 小 值 是 Lloyd 局 部 最 小 值 的 子 集 。 

(3) 用 伪 代 码 给 出 Hartigan k 均值 局 部 启发 式 算法 。 这 个 算法 的 复杂 度 是 多 少 ? 

(4 需要 注意 的 是 ， 该 启发 式 算法 在 任何 时 候 都 可 以 保证 簇 非 空 (这 与 Lloyd 启发 式 的 行为 不 同 ， 
"E RI DLE RES TREO. 

练习 8( 水 平 与 垂直 分 离 的 k 均 值 并 行 聚 类 ” ) 考虑 使 用 尸 个 机 器 的 集群 对 具有 vd 个 属性 的 个 
数据 进行 聚 类 。 假 设 4 人 写 x， 根据 机 器 之 间 分 布 式 特征 (因此 每 个 机 器 存储 一 部 分 数据 ) 提 出 了 卡 均值 
算法 的 并 行 实现 。 请 比较 垂直 分 离 的 kk 均值 实现 和 水 平分 离 的 并 行 k 均 值 实现 ( 当 数 据 元 素 在 机 器 间 
进行 划分 和 分 布 时 )。 

4&3] 9(* * kk 均值 聚 类 与 Bregman K) 均值 成 本 函数 可 以 推广 到 Bregman WUE., JE X an 





Alz1s—t) = le =z l* — —— le — x, Nt 
9-1 


F: eA(X,G) = » Minej, De Cr, c), Bregman 散 度 定义 为 严格 凸 和 可 微 的 生成 器 下 (Cz)， 形 式 
i=) 
WF: 
D; (x+y) = Fir) — Fly) — G — y) VF(y) 


PVF) = (EFO); ms E O) ) 表 示 梯 度 算 子 ( 偏 导数 向 量 ) 。 


(1) 证 明 平 方 欧 几 里 得 距离 是 Bregman 散 度 ， 而 普通 欧 几 里 得 距离 不 是 。 
(2) 证 明 min, 3)w,Dp(z,,c) 的 结果 是 重心 了 二 > wz,。( 事 实 上 ， 可 以 证 明确 保重 心 能 够 得 到 最 
小 值 的 唯一 的 失真 测度 是 Bregman 散 度 。) 


(3) 给 出 相应 的 Bregman 批量 上 均值 和 Bregman Hartigan k 均值 启发 式 算法 。 
(4) 证 明 重 心 的 可 组 合 性 仍然 适用 于 Bregman 散 度 ， 


第 7 章 基于 上 均值 的 划分 聚 类 153 





练习 10(* k 模式 ”) 为 了 对 类 别 属性 的 数据 ( 即 非 数 值 数据 ) 进 行 聚 类 ， 可 以 使 用 任意 两 个 4 HE 


属性 向 量 x 和 yy 之 间 的 汉 明 距离 (Hamming distance) : Dy Ce. y) = >, Lay 其 中 当 且 仅 当天 5 时 1, = 


j=l 


1. 反之 则 为 零 。 汉 明 距 离 是 一 种 满足 三 角 不 等 式 的 度量 。 用 ,表示 一 个 元 素 的 第 ! 维 的 第 m 个 类 别 。 
(1) HE WA mw — tow HI m^ = arg max, # (x; — ln) HARK m= Cm’, oo, m^) ADRK 46 


Dye Du (xm), 其 中 并 1。} 表 示 数 据 集 的 基数 。 也 就 是 说 ， 对 于 每 个 维度 ， 我 们 选择 模式 的 主导 
X 

(2) 通 过 给 出 反例 ， 证 明 重 心 可 能 不 是 唯一 的 。 

(3) 设 计 一 个 源 自 k 均 值 启 发 式 的 k 模 式 聚 类 启发 式 算法 ， 并 展示 了 如 何 使 用 它 来 对 文本 文档 的 
集合 进行 聚 类 。 

(4 展示 如 何 将 上 均值 和 k 模式 组 合 起 来 对 混合 属性 向 量 ( 某 些 维度 为 数值 属性 ， 其 他 维度 为 类 别 
属性 ) 进 行 聚 类 。 J> 

练习 11( 用 于 与 论 动力 学 的 Hegselmann-Krause 模型 "中 ) ”考虑 1 个 个 体 p,，…，p, 组 成 的 集 
合 ,， 集合 中 每 个 个 体 是 d 维 空间 RR” 上 的 点 。 在 给 定 的 迭代 中 ， 当 每 个 个 体 和 所 有 个 体 的 质心 之 间 的 
距离 小 于 规定 阔 值 r( 例 如， 半径 r==1; 因此 也 包括 其 自身 ) 时 更 新 该 个 体 的 位 置 ， 重 复 进行 这 一 过 程 
直到 收敛 (个 体位 置 不 再 改变 )。 收 敛 过程 中 ， 至 多 有 k<n 个 不 同 的 个 体 (不 同意 见 )。 请 用 -MPI 实现 
这 个 算法 。 算 法 的 复杂 度 是 多 少 ? 这 个 算法 与 Lloyd k 均值 算法 有 何不 同 ? 

练习 12( * * 任意 西 距离 的 重心 ) 令 D+, +) 表示 一 个 严格 同和 二 阶 可 微 的 距离 函数 (不 一 定 对 


称 ， 也 不 一 定 满足 三 角 不 等 式 )。 加 权 点 云 X= {(z w)), 的 重心 定义 为 — arg min, Y DG; 0). 
e 证明 这 个 重心 是 唯一 的 。 


。 为 梯度 V. OO ww,D(z,,c)) 的 归 零 提供 几何 解释 ， 重心 是 抵消 向 量 场 VCz) = 2 au V.D Gn 


的 唯一 点 。 
练习 13(* * 基于 动态 规划 的 一 维 k 均值 呵 ) 虽然 k 均 值 是 NP 难 问题 ， 但 在 三 维 情况 下 ， 可 
以 使 用 动态 规划 得 到 多 项 式 时 间 算法 。 首 先 ， 在 O(zlogz) 时 间 内 以 递增 顺序 对 Xo ns oe, mU 


个 标量 进行 排序 。 因 此 ， 我 们 可 以 假设 x, m. 
e 找 出 一 1 个 簇 的 最 优 聚 类 与 个 簇 的 最 优 聚 类 之 间 的 关系 。 这 里 令 X, 二 {zx;，*…，Z)} 表 示 标 
Ero eo WFE., AT e 0X, D M e6CX,,0 S BRERA ei(X,,) 的 数学 递归 方程 。 
e 展示 如 何 使 用 回溯 方法 从 动态 规划 表 中 找到 最 佳 划 分 。 算 法 的 复杂 度 是 多 少 ? 


。 通 过 将 个 标量 预 处 理 为 三 个 累加 和 Pus, Dwa, M Plut. 显示 如 何在 恒定 时 间 内 计算 


WX, = pee | z,—Ez, |. Pz, = —L— B3. siis 设计 出 一 维 情况 下 ， 可 以 在 O(n k) 


Ww, 


ter 


时 间 内 精确 计算 出 最 优 的 k 均值 划分 的 方法 。 
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61 凝聚 式 与 分 裂 式 层次 聚 类 及 其 树 状 图 表示 


层次 聚 类 是 另 一 种 对 数据 进行 探索 性 分 析 的 技术 。 这 是 一 种 无 监督 的 技术 。 在 第 7 
章 中 ,我们 已 经 详细 描述 了 一 种 聚 类 技术 , 该 技术 通过 最 小 化 k 均 值 目标 函数 ( 即 簇 内 方 
差 的 加 权 和 ) 将 数据 集 X= (r ，…，z} 划 分 成 多 个 分 组 ( 称 为 篮 ) 的 集合 X= 出 所;G;: 这 
是 一 种 平面 聚 类 技术 ， 能 够 获取 给 定数 据 集 的 非 分 层 的 划分 结构 。 为 了 与 这 种 平面 聚 类 
技术 形成 对 比 ， 本 章 讨论 男 一 种 广泛 使 用 的 聚 类 技术 : 层次 聚 类 (hierarchical clustering) 。 

层次 聚 类 技术 需要 构建 一 个 二 叉 合 并 树 ， 从 存储 在 叶子 中 的 数据 元 素 ( 可 以 理解 为 
单 点 集 ) 开 始 ， 将 "最 接近 ?的 子 集 ( 存 储 在 节点 中 ) 进 行 两 两 合并 ， 直 至 到 达 树 中 包含 X 
的 所 有 元 素 的 根 节 点 。 我 们 用 A(X;，X;) 表 示 X 中 两 个 子 集 之 间 的 距离 ， 称 为 连接 
距离 (linkage distance)。 该 技术 也 称 为 凝聚 式 层 次 聚 类 (Agglomerative Hierarchical 
Clustering，AHC)， 因 为 我 们 从 存储 单个 元 素 (Czi) 的 叶子 节点 出 发 ， 和 迭代 式 地 合并 数 
据 集 的 子 集 ， 直 至 到 达 树 的 根 节点 。 

其 中 表示 这 种 二 又 合并 树 的 图 形 称 为 树 状 图 (dendrogram) ， 该 词 来 源 于 希腊 语 中 
的 dendron 和 gramma， 分 别 表示 树 (tree) 和 绘制 (draw)。 绘 制 树 状 图 ， 我 们 首先 需要 
在 高 度 h(X ) 二 |X | 处 绘制 包含 子 集 X CX 的 内 部 节点 s(X)， 其 中 |， | 表示 X 的 基 
数 ， 也 就 是 该 集合 中 元 素 的 个 数 。 然 后 在 节点 s(X ) 与 其 两 个 兄弟 节点 s(Xi) 和 s(X;) 之 
BHR., HP X =X UXs( 且 Xi1X; —(0. Fd 8-1 描述 了 绘制 树 状 图 的 过 程 。 目 前 
存在 多 种 方法 来 实现 层次 聚 类 技术 中 层次 结构 的 可 视 化 。 例 如 ， 我们 可 以 使 用 一 种 基于 
谋 套 凸 体 的 特殊 的 文 氏 图 (Venn Diagram) (如 图 8-2 所 示 ) 来 实现 结构 的 可 视 化 。 

图 8-3 展示 了 一 个 树 状 图 的 例子 ， 该 树 状 图 是 利用 凝聚 式 层 次 聚 类 技术 对 免费 、 
多 平台 R 语言 >(GNU 通用 公共 许可 证 ) 提 供 的 数据 集 进行 计算 得 到 的 。 生 成 该 图 的 R 
语言 代码 如 下 : 





S Wet http: //www. r-project. org/ 来 下 载 和 安装 R 语言 。 
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数据 元 素 存储 在 二 又 合并 树 的 叶子 节点 中 


例 : 


AWN 


图 8-3 汽车 数据 集 的 树 状 图 
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d «— dist(as.matrix(mtcars)) # find distance matrix 

hc <— hclust(d,method-" average" ) 

plot(hc, xlab="x", ylab-"height", main-"Hierarchical.clustering.(average. 
distance)", sub-"(cars)") 


我 们 选择 欧 几 里 得 距离 DG. x)= lx; 2; | 作为 X 中 任意 两 个 元 素 之 间 的 基 
本 距离 ， 其 中 最 小 距离 作为 用 于 定义 子 集 间 距离 的 连接 距离 ， 即 A(Xi，Xi ) 三 
minzex ,yex,D(z，y)。 下 面 是 一 个 数据 集 的 摘录 ， 描 述 了 和 汽车 相关 的 数据 集 的 一 
些 特征 ; 


mpg cyl disp hp drat wt qsec vs am gear carb 
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160.0.110 3.90 2.875 17.02. 0 1 4 4 
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 
Hornet 4 Drive 21.4 6 258.0 110:3.08 3.215 19;:44.1 0 3 1 
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 O 3 2 
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 
Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 
Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 
Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 Q 3 3 
Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1.1 4 1 
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 » 
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 i 
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 © 3 2 
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 
Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 
Lotus Europa 30.4 4 95.1 i113 3.77 1.513 16.90. 1 1 5 2 
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 
Ferrari Dino 1949 6 145.0 175 3.62 2.770 15.50. 0 2 5 6 
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 


我 们 将 在 后 面 介绍 各 种 不 同 的 层次 聚 类 技术 。 值 得 注意 的 是 ， 层 次 聚 类 和 树 状 图 
的 可 视 化 绘制 包含 着 丰富 信息 ， 其 中 包括 对 各 种 不 同 层次 聚 类 技术 的 定性 和 定量 评估 。 

为 了 与 凝聚 式 层 次 聚 类 技术 进行 对 比 ， 我 们 介绍 一 下 分 裂 式 层次 聚 类 技术 (Divi- 
sive Hierarchical Clustering，DHC) 的 过 程 。 该 技术 首先 从 包含 整个 数据 集 X 的 根 节 
点 开始 ， 将 根 节 点 分 裂 成 两 个 子 节点 ， 分 别 包含 子 集 X 和 X (其 中 X MX, 满足 
X= 二 Xi UX,，Xi 门 X, 二 人 CO)， 然 后 递归 地 执行 该 过 程 直 到 到 达 存 储 单个 数据 元 素 的 叶 
子 节点 为 止 。 在 本 章 余下 的 内 容 里 ， 我 们 重点 介绍 应 用 最 为 广泛 的 凝聚 式 层 次 聚 类 技 
术 (AHC)。 
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8.2 定义 一 个 好 的 连接 距离 的 几 种 策略 


用 D(x;，zj) 表 示 数 据 集 X 中 任意 两 个 元 素 之 间 的 基本 距离 (例如 ， 欧 几 里 得 距 
离 )。 为 了 在 层次 聚 类 的 每 个 阶段 能 够 选择 距离 最 近 的 子 集 对 ,我 们 需要 定义 任意 两 个 
子 集 之 间 的 子 集 距 离 A(X;，X;)。 当 然 ， 如 果 两 个 子 集 都 是 单 点 集 ， 即 Xi = {x;}， 
X; 二 {x;}， 那 么 A (X;，X;)= 二 D(x;，x;)。 这 里 介绍 以 下 三 种 常见 的 连接 函数 。 

(1) 单 连接 (Single Linkage, SL): 


ACX;,X;) = min D(x; xj) 
x EX +2, EX, 


(2) 全 连接 (Complete Linkage，CL) ， 又 称 为 直径 法 : 
人 (X; +X;) = max D(x; x) 
r€X X 


er 
T J 4 


(3) 组 平均 连接 (Group Avarage gs GAL): 


A (X;,X;) = D (x; +x;) 
? 7 TEATS 


图 8-4 直观 地 展示 了 这 三 种 不 同 的 连接 函数 。 


的 年 


单 连接 SL ( 最 小 距离 ) 全 连接 CL， 直 径 组 平均 GA， 平 均 距离 
图 8-4 描述 了 定义 子 集 之 间距 离 的 几 种 常见 连接 函数 : 单 连 接 、 全 连接 和 组 平均 连接 


还 有 很 多 其 他 的 子 集 距离 A， 这 些 距 离 通 常 称 为 连接 距离 ， 因 为 按照 字面 意思 通 
过 这 些 连 接 距 离 可 以 连接 树 状 图 中 表示 子 集 的 子 树 。 


8.2.1 一 个 用 于 凝聚 式 层 次 聚 类 的 通用 算法 


我 们 在 下 面 总 结 了 通用 凝聚 式 层 次 聚 类 (AHC) 在 指定 连接 距离 A(。，“，) (其 中 
ACs, ) 是 用 户 定义 的 ， 并 依赖 于 另 一 个 用 户 自 定义 的 元 素 距 离 ) 下 的 基本 原理 。 


e 在 列表 中 为 每 个 数据 元 素 r; EX DREHER G = {r}. 
e While 当 列 表 中 至 少 有 两 个 元 素 ，do: 
一 选择 G; 和 Gi ， 使 得 所 有 子 集 对 中 A(G;，G; ) 最 小 。 
一 将 G, FIG; 进行 合并 ， 即 Cj =G,UG,. 
将 G;,; 加 入 列表 中 。 
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将 G; 和 Gi 从 列表 中 移 除 。 

e 返回 列表 中 剩余 的 元 组 ， 也 就 是 Gou =X 作为 树 状 图 的 根 节 点 。 

STA n— |X| 个 叶子 节点 开始 ， 到 包含 整个 数据 集 X 的 根 节点 结束 ， 一 共 进 行 
T ?一 1 次 合并 操作 。 这 种 AHC 算法 的 直接 实现 会 产生 三 次 方 的 时 间 复 杂 度 OG D. 
根据 连接 距离 ， 我 们 可 以 对 这 个 简单 算法 进行 优化 ， 获 得 更 好 的 时 间 复 杂 度 。 

观察 4 需要 注意 的 是 ,一 般 来 说 对 于 给 定 的 连接 距离 函数 所 得 到 的 树 状 图 可 能 
不 是 唯一 的 。 实 际 上 ， 可 能 存在 多 个 “最 近 ” 的 子 集 对 ,但 是 我 们 每 次 迭代 只 能 选择 其 
中 一 对 ， 并 重复 执行 这 一 选择 过 程 (这 样 就 打破 了 对 称 性 ， 比 如 说 ， 将 这 些 子 集 对 按 字 
典 顺序 排序 )。 换 句 话说 ， 如 果 我 们 对 X 的 元 素 进行 置换 so， 然 后 重新 执行 AHC AK, 
可 以 得 到 另 一 个 不 同 的 树 状 图 。 对 于 数值 数据 ,我 们 可 以 通过 增加 一 些 比较 小 的 、 均 
匀 分 布 于 (0，e) 之 间 的 随机 噪声 对 初始 数据 集 进 行 轻 微 扰动 ， 从 而 绕 过 这 个 问题 。 但 
是 对 于 分 类 数据 ， 这 个 问题 仍然 存在 ， 因 此 在 处 理 这 类 问题 时 要 特别 注意 。 

优化 后 的 单 连接 AHC 算法 称 为 SLINK'"1, 其 时 间 复 杂 度 为 O(n:)。 但 是 单 连接 
AHC 的 一 个 缺点 是 ， 在 最 后 生成 的 树 状 图 中 可 能 会 出 现 链 现象 ， 如 图 8-5 所 示 。 优 化 
后 的 全 连接 (又 称 为 直径 连接 )AHC 算法 称 为 CLINKU? ， 其 时 间 复 杂 度 为 On logn). 
全 连接 AHC 的 一 个 缺点 是 它 对 异常 值 非常 敏感 (也 就 是 说 ， 在 数据 集 清理 阶段 需要 尽 
可 能 预先 删除 这 些 异 常 的 数据 )。 初 步 来 看 ， 组 平均 连接 AHC 计算 成 本 更 高 , 但 是 经 
过 优化 后 可 以 获得 次 立方 的 时 间 复 杂 度 。 通 常情 况 下 ,我 们 在 实际 应 用 中 推荐 组 平均 
连接 AHC 算法 ， 因 为 该 算法 不 会 产生 链 现象 ， 同 时 对 噪声 数据 具有 更 强 的 抗 干扰 性 。 


8.2.2 为 元 素 选择 合适 的 基本 距离 函数 


基本 距离 函数 (base distance function)D(。，，) 对 于 树 状 图 起 着 至 关 重 要 的 作 
用 。 该 距离 函数 是 一 种 相 异 度 度 量 ， 它 可 以 评估 元 素 zx; 5 c; (或 任意 元 素 对 ) 之 间 的 相 
异 程度 。 尽 管 我 们 经 常 使 用 欧 几 里 得 距离 ， 但 是 也 可 以 选择 其 他 的 距离 度量 2 ， 如 城 
市 街区 距离 (city block distance) 。 城 市 街区 距离 也 称 为 曼哈顿 距离 (Manhattan dis- 
tance) & Li 范 数 推导 距离 S (Li-norm induced distance) ， 其 计算 公式 如 下 : 


d 
bis = Xj -el 
j=l 


我 们 用 一 系列 带 上 标的 符号 z 一 (人 zz) 表示 具有 以 个 分 量 的 属性 向 量 
x. HP x! 表示 4d 维 向 量 x 中 相应 维度 的 坐标 。 

除了 使 用 上 文 所 提 到 的 距离 度量 ， 我 们 也 可 以 使 用 闵 氏 距离 (Minkowski distance), 
闵 氏 距离 是 欧 几 里 得 距离 (xm 二 2) 和 曼哈顿 距离 (m 二 1) 的 一 般 化 形式 : 











O WERKE. =D., H), 不 可 区 分 法 则 ( 当 且 仅 当 p= 二 gq 时 ，D(p，g) 二 0) 和 三 角 不 等 式 ( 对 所 
有 的 三 元 素 对 ， 都 有 D, EDO» n DG». 07). 8.5 节 介 绍 了 超度 量 。 
© ”一 个 范 数 | ， | 推导 出 一 个 距离 D, Q= || p—all. 
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对 变量 进行 仿 射 


p»L'q) 


D,(L" 
当 于 首先 


) 


f FEE) Xt AA RE 48 EE CBN Zr 2E 48 BE BS] D AE D E 


> BRER Ds Co. q)fü 


(p—gQ'z'ip—q 
也 就 是 说 
三 角 不 等 式 。 


同时 满足 


o 


q) 


利用 Cholesky 4& E (E PE L 是 一 个 下 


fif. BI! 


L 


DsCp, 
EF 


4 348 A HE Z7 [8] LAG AS [ed Yd LA RH X PERSE RIRE KIE 7 (Ma- 


halanobis distance) : 


变换 (x<-L" x)， 然 后 计算 欧 几 里 得 距离 D; (Lp， 9q)。 和 矩阵 忆 称 为 协 方差 矩阵 ， 其 
日 、 该 距离 度量 是 对 称 的 ， 
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逆 和 矩阵 之 “ 称 为 精度 和 矩阵。 我 们 可 以 通过 下 面 的 公式 从 数据 集 样 本 zi ，…，z P 
算 协 方 差 矩阵 : 


SI = 
Hp z= IY 是 经 验 均值 ， 也 称 为 样本 均值 (sample mean). 
对 于 分 类 数据 ( 非 数值 再 )， 我 们 通常 使 用 一 致 距离 ， 例 如 汉 明 距离 (Hamming 


distance) : 
d 
Dy (ps@ = > lrj aq 
j=1 


Ke HU a Ab 时 ，17,zw = 二 1， 否 则 为 0。 也 就 是 说 ， 汉 明 距 离 计算 的 是 数据 中 对 
应 属性 不 同 的 次 数 。 汉 明 距 离 也 是 一 种 距离 度量 。 | 

通常 情况 下 ， 我 们 可 以 将 一 个 相似 度 的 度量 转化 成 相 异 度 的 度量 ， 反 之 亦 然 。 例 
如 ,针对 d 维 二 进 制 向 量 的 汉 明 距离 ,我们 可 以 定义 其 相似 度 度量 为 Sr Op. D= 
Cs q) 





Y —  ) Cx; 一 云 ) 


i, 








(其 中 OSS MS], 4 p—q 时 相似 度 最 大 ) 。 

npn 用 领域 中 还 有 很 多 其 他 的 距离 函数 。 例 如 ， 在 集合 上 定义 的 未 卡 德 距 
# Jaccard distance)Dj(A，B) 一 | 全 中 各 | ， 用 于 表示 组 合 结构 (如 文本 或 DNA 序列 ) 
之 间距 离 的 编辑 距离 (edit distance); 余弦 距离 (cosine distance) Dos (p; q)=1— 
T (该 距离 度量 在 分 析 以 单词 频率 直方 图 表示 的 语料库 文档 时 是 非常 有 用 
的 ) 等 。 


8.3 Ward 合并 准则 和 质心 


还 可 以 根据 子 集 的 质心 来 获取 子 集 距离 A。 该 准则 允许 我 们 实现 方差 最 小 化 过 程 ， 
这 就 产生 了 Ward 连接 (Ward linkage) 函数 。 为 了 将 X; — | X; D RI X;OQj— | X; |) 
进行 合并 ， 我 们 可 以 考虑 利用 下 面 的 Ward 准则 : 


act X) 一 TE | cCX,) — eCX;) |]? 
其 中 c(XO 表示 子 集 X' CX 的 质心 OX) = -yry Dee CU 8I ELA 1E ME RE Jn i 
点 ) 。 可 以 观察 到 ， 由 子 集 距 离 A 推导 出 的 两 个 元 素 之 间 的 距离 只 是 平方 欧 几 里 得 距离 
的 一 半 ， 即 A({zi}s {zj}) = Dianz) = i | z; — z; ||’. 图 8-6 显示 了 从 组 平均 
AHC fil Ward AHC( 最 小 方差 ) 获 得 的 两 个 树 状 图 之 间 的 差异 。 
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图 8-6 组 平均 连接 获取 的 树 状 图 (a) 与 Ward 连接 获取 的 树 状 图 (b) 的 比较 


注意 ,我 们 可 以 定义 两 个 子 集 之 间 的 相似 度 SCX; . X, — —AC(X;, X0. HWE 
EE SSSL S 时， 树 状 图 中 长 度 为 /的 路 径 序 列 的 合并 过 程 是 单调 的 。 当 树 状 
图 中 从 叶子 到 根 节点 的 路 径 中 存在 至 少 一 个 逆序 对 (inversion) (例如 S;<S,., AY. JZ 
次 聚 类 被 称 为 非 单调 的 (non-monotonous)。Ward AHC 是 非 单调 的 ， 因 为 它 可 能 存在 
道 序 对 。 而 单 连接 、 全 连接 和 组 平均 连接 都 能 够 保证 是 单调 的 。 

当 我 们 以 相似 度 作为 高 度 函 数 来 绘制 合并 树 的 节点 ( 即 树 状 图 的 节点 ) 时 ， 树 状 图 
中 的 逆序 对 可 以 在 树 状 图 中 通过 这 种 方法 注意 到 : 一 个 水 平 高 度 线 低 于 之 前 一 次 合并 
操作 的 水 平 高 度 线 ， 而 这 种 现象 又 与 从 叶子 到 根 的 路 径 上 节点 应 该 是 单调 的 事实 相 
矛盾 。 图 8-7 显示 了 树 状 图 中 的 一 个 逆序 对 。 


x^ S({x}, {x2}) 
S({x1, x: {x3}) 





xXx e x 
35 X X, 
图 8-7 树 状 图 中 一 个 逆序 对 的 例子 。 该 树 状 图 是 在 三 元 组 组 成 的 小 数据 集 上 进行 基于 
Ward 准则 的 层次 聚 类 得 到 的 


8.4 从 树 状 图 中 获取 平面 划分 


从 树 状 图 中 ， 我 们 可 以 提取 出 许多 不 同 的 平面 划分 。 图 8-8 通过 两 个 恒定 高 度 的 
切割 来 说 明 这 一 概念 ， 这 些 切割 就 代表 了 对 数据 集 的 划分 。 需 要 注意 的 是 ， 树 状 图 上 
的 切割 路 径 通 常 不 需要 处 于 恒定 高 度 ( 参 见 8. 8 节 ).。 
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图 8-8 从 树 状 图 中 获取 平面 划分 。 这 里 选择 按照 高 度 对 树 状 图 进行 切割 。 在 给 定 的 高 
度 下 ， 可 以 获得 一 个 平面 聚 类 ( 即 对 整个 数据 集 的 一 个 划分 )。 切 割 路 径 不 需要 
在 恒定 高 度 ， 因 此 从 树 状 图 中 可 以 获得 很 多 的 平面 划分 。 该 图 显示 了 恒定 高 度 
下 两 个 不 同 的 切割 ， 其 高 度 分 别 为 二 0.75 和 /一 1.8 


8.5 ”超度 量 距离 和 进化 树 


如 果 一 个 距离 函数 D(。，。，…) 满 足以 下 三 个 公理 ， 则 称 其 为 一 个 度量 (metric)。 

e 不 可 区 分 定律 (Law of indiscernibility): 4 HAL% r=y Af, D(x, y)>0 成 立 。 

e 对 称 性 (Symmetry): DCz，y) 王 DCy，z)。 

e 三 角 不 等 式 (Triangular inequality); D(x, y) 寺 D(x, z) 十 D(z，y)。 

欧 几 里 得 距离 和 汉 明 距离 都 属于 度量 距离 。 平 方 欧 几 里 得 距离 不 属于 度量 距离 ， 
虽然 它 满足 对 称 性 和 不 可 区 分 性 ， 但 当 我 们 取 欧 几 里 得 距离 的 平方 时 ， 它 就 不 再 满足 
三 角 不 等 式 ( 然 而 ， 回 想 一 下 ， 平 方 欧 几 里 得 距离 可 以 用 来 定义 平面 聚 类 中 芷 均值 的 势 
函数 ， 以 获得 聚 类 质心 和 方差 最 小 的 徐 )。 不 可 区 分 性 定律 可 以 进一步 分 为 两 个 子 公 
H: 非 负 性 定律 D(p，g) 宇 09， 以 及 自 反 性 定律 D(p，g)= 二 0 人 Sp 二 gq。 

层次 聚 类 和 称 为 超度 量 (ultra-metrics) 的 一 类 距离 紧密 相关 。 一 个 距离 如 果 是 度量 
距离 ， 同 时 满足 D(z， y)<max(D(a, z)，D(z，y))， 则 该 距离 称 为 超度 量 。 


现在 我 们 来 解释 一 下 超度 量 和 层次 聚 类 的 关系 。 在 进化 理论 中 ， 物 种 随 着 时 间 演 
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化 ， 物 种 之 间 的 距离 可 以 由 进化 树 (phylogenetic tree) 来 表示 。 这 里 我 们 将 距离 简写 为 
D;; 二 D(x;，y;)。 一 棵 树 是 可 县 加 的 (additive)， 当 且 仅 当 我 们 可 以 在 树 的 每 条 边 设 
置 附加 权重 ， 使 得 对 于 每 对 叶子 之 间 的 距离 等 于 连接 它们 的 边 的 距离 的 总 和 。 当 两 个 
叶子 zz 和 j 分 别 和 它们 的 共同 祖先 (common ancestor) & 之 间 的 距离 相等 ( 即 D, , =D, 4) 


时 ， 则 称 该 树 是 超度 量 的 。 我 们 通过 选择 高 度 距离 为 方 D;,; 来 绘制 超度 量 树 ， 以 便 可 


视 化 显示 相应 的 树 状 图 。 这 个 距离 可 以 解释 为 数据 集 X 中 所 有 元 素 的 时 钟 时 间 ( 对 于 
物种 来 说 ， 它 代表 生物 学 时 间 )。 

组 平均 AHC 能 够 保证 生成 一 棵 超度 量 树 。 我 们 将 这 种 在 树 中 每 个 节点 嵌入 相应 
高 度 的 层次 聚 类 称 为 非 加 权 组 平均 法 (Unweighted Pair-Group Method with Arithmetic 
means，UPGMA)。 下 面 是 该 算法 的 伪 代 码 。 


[Algorithm UPGMA|; 
e 对 于 所 有 的 i， 用 zi 对 它 的 簇 进行 初始 化 G; 二 {x;) ， 并 将 叶子 节点 的 高 度 设 置 
AO. 
e While BY AMT do: 
— FR i gc Yr RS a C: AC; 使 组 平均 距离 A;,j 最 小 。 
EXTA HH C=C; UC; ee ETO 


SIMA Rk. TEAC; 和 Ci 的 父 节点 ， 并 将 节点 高 度 设置 为 元 MCs Ci). 


J 


一 将 C, 和 Ci 从 簇 列 表 中 移 除 ， 重 复 这 一 过 程 ， MF ci ibo Ada 
。 ANP d PIT E C, HIC, 设置 根 节点 ， 其 高 度 为 方 AC, Gs 


定理 9 当 数 据 集 X 中 的 元 素 之 间 的 距离 也 ,一 DCzi，zi) 构 成 的 距离 矩阵 M= 
[D;,; ];,j; 满 足 超 度量 的 性 质 ， 那 么 存在 可 以 使 用 UPGMA 算法 构建 的 唯一 的 超度 量 树 。 

在 对 物种 的 进化 进行 建 模 时 ， 通 常会 使 用 进化 树 。 我 们 将 垂直 轴 与 进化 的 时 间 顺 
序 相关 联 ， 如 图 8-9 所 示 。UPGMA 人 允许 构建 这 样 一 个 超度 量 树 。 然 而 ， 我 们 需要 强 
调 的 是 数据 集 通 常 存 在 噪声 的 ,距离 矩阵 通常 会 因此 受 损 而 不 再 是 超度 量 。 另 一 个 缺 
点 是 存储 两 两 之 间 上 距离 的 矩阵 需要 平方 级 内 存 空 间 ， 因 此 只 能 被 限制 在 合理 大 小 的 数 
据 集 上 使 用 (但 不 是 大 数据 ) 。 


8.6 注释 和 参考 


目前 存在 很 多 层次 聚 类 算法 。 这 里 我 们 引用 SLINK'" CH xe Se. 1973). 
CLINK (全 连接 ，1977) 和 一 篇 综述 [3] 来 介绍 层次 聚 类 。 虽 然 最 小 化 k 均值 目标 函 
数 的 平面 聚 类 是 NP 难 的 (即使 在 平面 中 )， 但 是 近来 (2012) 已 经 证 明 我 们 可 以 从 单 连 
接 层次 聚 类 中 提取 最 优 上 均值 聚 类 ， 前 提 是 需要 满足 某 种 稳定 性 条 件 ， 参 见 文献 [4] 
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时 间 (〈 百 万 年 ) 


棕熊 。” 北极熊。 黑熊 IRERE 大 熊猫 ” ”浣熊 “小熊 猜 
图 8-9 用 于 显示 物种 进化 的 树 状 图 和 进化 树 


(使 用 动态 规划 进行 平面 划分 的 提取 ， 以 找到 最 佳 的 非 恒 定 高 度 的 树 状 图 切割 )。 层 次 
聚 类 中 关于 最 小 化 Ward 方差 准则 及 其 相关 标准 在 文献 [5-6j 得 到 了 充分 的 研究 。 不 同 
的 层次 聚 类 算法 (包括 SLINK、CLINK 和 Ward) 可 以 在 通用 Lance-Williams 框架 中 得 
到 统一 ， 参 见 文献 [7] 和 8. 8 节 。 文 献 L8] 研 究 了 层次 聚 类 的 唯一 性 和 单调 性 。 尽 管 这 
种 层次 聚 类 算法 比 平 面 聚 类 (如 k 均值 ) 更 难 并 行 化 ， 但 文献 L9] 研 究 出 了 一 种 高 效 的 并 
行 算法 。 文 献 L10] 系 统 解释 了 分 裂 式 层次 聚 类 技术 ， 该 技术 主要 强调 了 模块 化 概念 。 
距离 是 许多 算法 的 核心 : 我 们 推荐 阅读 《Encyclopedia of Distances) x} 3c SE AY BE BS (iit 
一 个 系统 性 的 回顾 。 


8.7 总 结 


凝聚 式 层次 聚 类 与 基于 划分 的 聚 类 不 同 ， 因 为 它 构 建 了 一 个 二 又 合并 树 ， 该 树 从 
包含 数据 元 素 的 叶子 节点 开始 ， 到 包含 完整 数据 集 的 根 节 点 结束 。 将 这 些 节 点 嵌入 到 
平面 上 树 的 图 形 化 表示 称 为 树 状 图 。 为 了 实现 层次 聚 类 算法 ， 必 须 选 择 一 个 连接 函数 
( 单 连接 、 平 均 连接 、 全 连接 、Ward 连接 等 )， 连 接 函 数 定义 了 任意 两 个 子 集 之 间 的 距 
离 ( 并 依赖 于 子 集 内 部 元 素 之 间 的 基本 距离 )。 当 上 且 仅 当 相似 度 随 着 从 任何 叶子 到 根 的 
路 径 减 小 时 ， 层 次 聚 类 是 单调 的 ， 否 则 存在 至 少 一 个 逆序 对 。 单 连接 、 全 连接 和 平均 
连接 标准 保证 了 单调 性 质 ， 但 常用 的 Ward 标准 并 不 能 保证 这 一 点 。 从 树 状 图 中 ， 可 
以 提取 出 许多 与 平面 聚 类 的 输出 相对 应 的 数据 集 划 分 。 用 于 模拟 物种 进化 的 进化 树 是 
超度 量 树 。 当 任何 两 个 元 素 之 间 的 基本 距离 是 超度 量 时 ， 基 于 平均 连接 函数 的 层次 聚 
类 能 够 保证 构建 出 的 树 是 超度 量 树 。 


166 ”第 二 部 分 面向 数据 科学 的 高 性 能 计算 





8.8 练习 


练习 1( 检 查 距 离 矩 阵 的 超度 量 性 质 ) 用 M 表示 一 个 nXn 维 的 方 阵 ， 其 中 方 阵 中 索引 (i， 门 存 
储 着 元 素 x, 和 元 素 zi ZAKER D, r). 

© 请 设计 一 个 算法 来 检查 该 距离 矩阵 是 否 满足 超度 量 性 质 。 

o 你 的 算法 的 时 间 复 杂 度 是 多 少 ? 

练习 2( 欧 几 里 得 距离 度量 和 汉 明 距离 度量 ) 

e 证 明 欧 几 里 得 距离 是 一 个 度量 ， 但 平方 欧 几 里 得 距离 不 是 度量 。 

e 证 明 汉 明 距离 满足 度量 的 公理 。 


e 证 明 距离 D(p,q) = (D p-d") ,0 二 mn 过 0 不 是 一 个 度量 ( 当 m 之 1 时， 回想 一 下 ， 这 


是 m 范 数 推导 的 闵 氏 距离 度量 ) 
练习 3 (平面 聚 类 与 层次 聚 类 的 结合 ) 用 X— (ns cs xL) ERU n 个 元 素 的 数据 集 ， 每 个 元 
KRA d TRH. 
e 给 出 一 种 算法 ， 它 可 以 对 数据 进行 层次 聚 类 ， 并 获取 最 多 /个 元 素 的 划分 (对 于 较 大 的 2/， 它 会 
产生 过 聚 类 (over-clustering)) ， 并 使 用 k 均值 算法 对 该 划分 中 所 有 分 组 的 质心 进行 处 理 。 你 认 
为 什么 样 的 应 用 会 使 用 这 种 策略 ? 
e 你 的 算法 的 复杂 度 是 多 少 ? 说 明 一 下 该 算法 相对 于 只 使 用 层次 聚 类 或 只 使 用 基于 划分 的 聚 类 的 
优点 ? 
练习 4(Lance 和 Williams H BK Xt 3&7) 
e FARAH C,. C, C,. MUST PITE BOE SCR BURKE: D, — AQ. CO. Du 
A UC Cis 
e 一 个 层次 聚 类 属于 Lance-Williams 系列 ， 当 且 仅 当 它 可 以 被 规范 地 表示 为 : 
D, = aD, +aD; + BD, +7| D, — D, | 
其 中 参数 w 、w、8 和 ?7 取决 于 簇 的 大 小 。 证 明 对 不 相交 的 组 C,. C, WE C,. Ward 最 小 方差 准 
则 (DCz;， x)= zx, 一 zj 刷 * ) 得 到 下 列 的 公式 : 
n; +n 


D(C, U €, CO a, oe Fe ;C,) 
n; n, u n, " 
ut Tcr ee mm a er 
e 证 明 Ward 算法 是 Lance-Williams 通用 层次 聚 类 的 一 个 特例 ， 具 有 以 下 参数 : 
n, +n, —n, 





0 


a, 


Lada - n +n, +n," 
e 证 明 Lance-Williams 算法 统一 了 单 连接 、 全 连接 和 组 平均 连接 。 
练习 5( 针 对 任意 凸 距离 函数 的 基于 质心 的 层次 聚 类 ) ”对 于 一 个 凸 距离 DCO* . <), 我 们 将 X 的 

质心 定义 为 min. 盖 exD(Cz，c) 的 唯一 最 小 值 。 证明 发 生 在 Ward 准则 中 的 逆序 对 现象 ， 在 欧 几 里 得 距 

离 或 曼哈顿 距离 (两 种 凸 距离 的 例子 ) 中 不 会 发 生 。 
练习 6C 从 层次 聚 类 中 获取 最 优 的 上 均值 平面 划分 中 ) ”给 定 一 个 树 状 图 ， 我 们 可 以 提取 出 许多 

不 同 的 划分 : 
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e. 可 以 从 树 状 图 中 获取 多 少 个 不 同 的 划分 ? 
e 对 于 一 个 子 集 X ,我 们 用 c(X ) 和 w(X ) 分 别 表示 X' 的 质心 和 方差 ， Jt WX) = Tr Erer 


zz 一 (ecCX DTcCX ))。 给 出 一 个 动态 规划 算法 ， 用 于 从 树 状 图 中 获取 最 优 的 k 均值 平面 聚 
类 。 你 的 算法 的 时 间 复 杂 度 是 多 少 ? 
练习 7(* 文 本 和 球面 k 均 值 之 间 的 余弦 距离 ) SpA 是 具有 4d 个 属性 的 两 个 向 量 ， 余弦 距离 


tan 。 余 弦 距 离 是 一 个 角度 距离 ， 并 不 考虑 向 量 的 大 


小 。 对 于 文本 文档 的 集合 ， 我 们 通过 词 频 /计数 向 量 f(t) (给 出 一 个 词典 ) 对 文本 上 进行 建 模 。 
e 证 明 余 弦 距 离 是 一 个 度量 。 
© 设计 一 种 能 够 对 文本 文档 进行 聚 类 的 凝聚 式 层次 聚 类 算法 。 
© 根据 余弦 距离 将 K 均 值 平面 聚 类 推广 到 基于 划分 的 聚 类 算法 。 我 们 将 属性 向 量 作为 位 于 单位 球 
体 上 的 点 集 ， 并 且 证 明 球 面 质心 是 将 欧 几 里 得 质心 投影 到 单位 球面 上 ( 当 所 有 的 点 都 被 封闭 在 
同一 半球 时 )。 如 何 定义 以 原点 为 中 心 的 单位 球体 上 两 个 对 称 点 的 球面 质心 。 
练习 8(* 基于 Bregman KAHAR) Bregman 散 度 是 一 种 非 度量 距离 ， 根 据 严格 凸 和 可 
微 函 数 发 生 器 F(z) 定 义 如 下 : 
Di(ryy) = F(x) — FC) — (x,y) VFCy) 


计算 公式 为 : Dp, q)—c08(0,,) —1— | 


SERV EC) = (3c FG), + FEO ARRENE. 
e 证 明 对 于 F(x) 二 x x, Bregman 散 度 和 平方 欧 几 里 得 距离 等 价 。 
e 证 明 Bregman 散 度 不 可 能 蚌 一 个 度量 ， 而 平方 马 氏 距离 是 一 种 对 称 Bregman 散 度 。 
e Bregman 散 度 的 Ward 准则 可 以 一 般 化 为 : 


ACX XD = |X, | X Dp CcCX,) eX, U XD ++ |X, | X DEGOXD eX, U X,» 


其 中 c(X,) 是 集合 X, 的 中 心 。 证 明 对 于 FG)— rz. 我 们 可 以 得 到 通常 的 Ward 准则 。 


e 给 出 一 个 Bregman 层次 聚 类 算法 。 会 出 现 逆序 对 现象 吗 ? 

练习 9 C x 单 连接 层次 聚 类 和 最 小 生成 树 "”") 给 出 一 个 简单 的 单 连 接 层次 聚 类 的 实现 。 你 的 
简单 算法 的 时 间 复 杂 度 是 多 少 ? 给 定 一 个 平面 点 集 X=={z,，…，x,}， 欧 几 里 得 最 小 生成 树 (Minimum 
Spanning Tree，MST) 是 一 种 树 ， 其 节点 与 X 中 的 所 有 数据 点 绑 定 ， 并 且 树 中 所 有 边 长 度 之 和 最 小 。 证 
Hj MST 是 Delaunay = ff il 47 (Voronoi 图 的 双重 结构 ) 的 子 图 。 证 明 可 以 根据 欧 几 里 得 最 小 生成 树 中 的 边 
信息 推导 出 单 连接 树 状 图 的 结构 。 另 外 ， 为 单 连接 层次 聚 类 设计 一 种 具有 平方 时 间 复 杂 度 的 算法 。 
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第 9 章 


有 监督 学 习 : K-NN 规则 分 类 的 理论 和 实践 


9.1 有 监督 学 习 


在 有 监督 学 习 中 ， 我 们 给 出 了 一 个 带 有 标签 的 训练 集 Z 二 {(zx;，y;));， 其 中 ye tl 
(正确 标注 的 数据 )， 任 务 是 基于 该 训练 集 学 习 一 个 分 类 器 ， 以 便 我 们 可 以 对 新 的 未 被 
标记 的 测试 集 Q= (xi): 进行 分 类 。 在 本 章 中 ,我 们 将 学 习 一 种 非常 简单 的 、 但 是 被 
证 明 可 以 对 数据 进行 有 效 分 类 的 算法 : k 最 近邻 规则 ,或 简称 k-NN 规则 。 当 训练 集 
数据 只 有 两 种 类 别 时 ， 我 们 处 理 的 是 二 元 分 类 (binary classification) 问 题 ， 否 则 为 多 元 
4r X (multi-class classification) 问题。 统计 学 习 假 定 训练 集 和 测试 集 是 独立 、 同 一 采样 
得 到 的 ， 并 都 满足 任意 但 固定 的 未 知 分 布 。 


9.2 最 近邻 分 类 : NN 规则 


最 近邻 分 类 规则 为 元 素 x 分 配 一 个 标签 作为 类 别 1(x)€E (一 1， 十 1}， 其 中 Lz) 是 
训练 集中 最 近 标 记 点 NN (xz) 的 标签 ， 即 1G) = 二 1(NNyz (xz))。 也 就 是 说 ， 对 于 e= 
arg minj-i D(x, 2,), RNA (C) — y, HP D(，。，。…) 是 一 个 适当 的 距离 函数 (通常 
选取 欧 几 里 得 距离 )。 需 要 注意 的 是 ， 当 存在 多 个 点 产生 相同 的 最 小 距离 时 ， 我 们 任 选 
其 中 一 个 点 。 例 如 ， 我 们 可 以 在 训练 集 Z 上 使 用 字典 顺序 ， 并 在 最 近邻 关系 的 情况 下 
给 出 Z 中 的 最 低 索 引 点 。 因 此 ,“ 最 近邻 ”的 概念 是 根据 任意 两 个 元 素 之 间 的 距离 函数 
D(。，。，) 来 定义 的 。 例 如 ,我们 在 前 面 的 章节 中 介绍 的 欧 几 里 得 距离 D(p,q) = 


d d x 

| 3) Gi 一 g ,或 针对 数值 属性 的 闵 氏 距离 的 泛 化 形式 Di(p,q9) = (D1 |p’ —a |) 
je j=1 

( 当 /1 时 该 距离 为 度量 )( 见 图 9-1)， 或 针对 分 类 属性 (一 致 距离 ) 的 汉 明 距 离 Dr Cp, 


d d 

D= Ma-eyGO» = Mya. BAT 6, (y) =1 表示 Dirac BHR, 4AMY y= 
j=l j=l 

工时 等 于 1， 否 则 为 0。 
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AN 
N 


图 9-1 RE HEUS) Fh) Minkowski Rre R? |D,(0, <1). 其 中 D,(p,g) = 


1 
7 


d 
(X løg 11) = 省 p 一 qi。 当 1=2 时， 我们 得 到 平 几 的 欧 几 里 得 球 。 当 
j=l 


/二 1 时 ， 我们 获得 曼哈顿 球 (正方 形 )， 当 :一 十 c 时 ， 我 们 也 会 得 到 一 个 与 曼 哈 
顿 球 相差 45 的 正方 形 


我 们 通过 OX 中 上 个 最 近邻 INN) 查 询 的 应 答 ， 对 测试 集中 := |Q| 个 新 的 未 标记 的 
观察 进行 分 类 。 尽 可 能 快 地 应 答 这 些 查询 是 至 关 重 要 的 ， 至 少 能 够 在 次 线性 时 间 内 完 
成 ， 这 样 我 们 就 能 打败 那 种 直接 扫描 X 中 所 有 数据 点 的 简单 算法 。 存 在 许多 种 数据 结 
构 来 应 答 这 些 NN 查询 ， 但 是 随 着 数据 维度 4 的 增加 ， 这 些 方法 很 难 ( 可 证 明 ) 以 显著 
的 优势 打败 简单 算法 。 这 种 现象 称 为 维 数 灾难 (curse of dimensionality)。 历 史上 ， 维 
数 灾难 是 由 Bellman 首先 提出 来 的 ， 他 是 动态 规划 的 创始 人 。 


9.2.1 最 近邻 查询 中 欧 几 里 得 距离 计算 的 优化 方法 


我 们 经 常 选 择 欧 几 里 得 距离 作为 基本 距离 ， 并 且 可 以 在 实践 中 对 NN 查询 进行 优 
化 。 我 们 首先 观察 到 ， 一 个 距离 或 这 个 距离 的 单调 递增 函数 (如 平方 函数 ) 不 会 根据 查 
询 点 9 改变 点 的 相对 顺序 。 也 就 是 说 ,我 们 可 以 得 出 L— arg min?_-1D(g，Z;) = 
arg min?_1D*(qg，x;)。 这 是 一 个 非常 有 用 的 观察 ， 因 为 平方 欧 几 里 得 距离 在 数学 上 更 
容易 处 理 。 实 际 上 ， 计 算 两 个 d 维 属性 向 量 之 间 的 平方 欧 几 里 得 距离 相当 于 进行 d 次 
WE. d 次 平方 操作 以 及 4 一 1 次 求 和 。 也 就 是 说 共 进 行 3& 一 1 次 基本 的 算术 运算 。 我 
们 也 能 够 将 平方 欧 几 里 得 距离 (或 其 他 基于 范 数 的 推导 距离 ) 解 释 为 D Cq, zi) = 
(g 一 Xi，9 一 x;)， 其 中 (x，y) 二 x' x Bt EAR (scalar product)( 从 技术 上 来 说 ， 欧 几 里 
得 空间 也 可 以 解释 为 由 点 积 构成 的 Hilbert 空间 )。 计 算 两 个 4 维 向 量 的 标量 积 需要 
2d 一 1 次 操作 。 现 在 ， 如 果 对 于 训练 集 Z 中 的 点 , 在 (2d 一 1)n 时 间 内 对 平方 范 数 


d 
norm? (p) = (p,p) = A) D? 的 计算 进行 预 处 理 ， 其 中 |2Z| 一 nw， 则 可 以 计算 
一 1 


J 
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D'Cp, 9) 为 D(p，9g) 二 norm*(p) 十 norm* (gq) 一 2L(p，g): 也 就 是 说 ， 相 当 于 对 测试 
集 Q(|Q|= 四 的 每 次 查询 进行 了 1 次 标量 积 运算 。 为 了 对 t 个 未 标记 的 数据 进行 分 类 ， 
简单 的 方法 需要 (3d 一 1)nt， 而 通过 在 (24d 一 1)(n 十 ?) 内 计算 x 十 四 个 范 数 进行 预 处 理 
的 方法 所 需要 的 总 时 间 为 (2d 一 1)(n 十 旭 十 1:(2 十 2d 一 1)。 因 此 ， 对 于 (nd, KEN 


加 速 比 为 妆 寞 一 0.75n。 在 实践 中 可 以 使 用 现代 PC 中 的 图 形 处 理 单元 (GPU) ， 从 而 加 


快 标量 积 的 计算 。 


9.2.2 最 近邻 INN) 规 则 和 Voronoi 图 


对 于 一 个 给 定 的 训练 集 Z， 其 中 Z 包含 x=|Z| 个 4 维 数值 型 数据 元 素 ， 根 据 
最 近邻 标签 函数 (其 中 argmin 是 常数 ) 可 以 将 空间 民 ” 划分 为 个 等 价 类 。 这 些 正 
好 是 将 空间 分 解 成 邻近 单元 的 Voronoi 单元 (Voronoi cell) 。 我 们 已 经 在 第 7 BPS 
绍 了 Voronoi 图 。 让 我 们 快速 回想 一 下 ， ZAR? 上 有 限 集合 X={(p,. cns pa) h9 
Voronoi 图 ( 称 为 Voronoi 生成 器 )， 能 够 将 空间 分 成 Voronoi 单元 ， 也 就 是 邻近 单 
元 。 一 个 Voronoi 单元 V(z,) 定 义 为 空间 R* 上 点 的 一 个 集合 ， 集 合 中 的 点 满足 到 
zi 的 距离 比 到 其 他 生成 元 zi (i 关门 的 距离 更 近 。 也 就 是 说 ,， V(x) 一 {rE R' | 
| x— x; l| 三 上 zx 一 zj || Wixi}. E 9-2 描述 了 一 个 平面 Voronoi 图 (可 以 观察 到 其 
中 有 无 界 的 单元 ) 。 





图 9-2 将 空间 分 割 成 邻近 单元 的 平面 Voronoi 图 的 示例 


这 里 ， 我 们 只 考虑 Voronoi 图 的 双色 生成 元 (两 个 类 别 "一 1 和 "十 1”， 或 红色 / 蓝 
色 )。 因 此 双色 Voronoi 图 将 空间 分 割 成 两 种 颜色 的 单元 ， 并 且 不 同 颜色 之 间 的 界限 表 
示 NN 分 类 器 的 决策 边界 。 图 9-3 说 明了 这 些 几 何 特征 。 需 要 注意 的 是 ， 在 实践 中 由 
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于 指数 组 合 的 复杂 度 ， 很 难 对 高 维度 的 Voronoi 图 进行 计算 。 然 而 . 支持 不 同 颜色 单 
元 的 双色 Voronoi 图 的 切面 精确 地 定义 了 决策 边界 。 因 此 ， 由 于 等 分 线 ( 即 与 两 个 生成 
器 等 距 的 点 的 轨迹 ) 是 超 平面 ，NN 规则 具有 分 段 线性 决策 边界 。 





图 9-3 k-NN 分 类 规则 和 双色 Voronoi KH: a) 双 色 Voronoi Kl; b) Voronoi 双色 切面 ; 
c) 利 用 1-NN 规则 的 分 类 器 (类 别 是 单 色 的 Voronoi 单元 的 并 集 ); d) 定 义 为 两 个 
类 别 交 界面 的 边界 决策 


9.2.3 利用 k-NN 规则 通过 表决 来 增强 NN 规则 


为 了 使 分 类 器 能 够 容忍 噪声 数据 集 ( 例 如 ， 不 精确 的 输入 和 蜡 常 值 )， 我 们 可 以 通 
过 在 X 的 前 & 个 最 近邻 中 进行 选择 来 分 类 新 的 观察 9， 即 主导 类 别 。 对 于 二 元 分 类 ， 
为 了 避免 出 现 票 数 一 样 的 情况 ， 我 们 可 以 将 & 选 为 奇数 值 。 在 实践 中 ， 增 加 A& 可 以 使 
分 类 器 容忍 数据 集中 的 异常 值 , 但 缺点 是 当 有 增加 时 决策 边界 会 变 得 更 模糊 。 目 前 存 
在 许多 技术 或 经 验 规则 来 为 k- NN 选择 最 合适 的 & 值 。 例如 ， 交 又 验证 的 方法 使 用 部 
分 训练 集 进行 训练 ， 其 余部 分 进行 测试 。k- NN 表决 规则 推广 了 NN 规则 (通过 选择 
k 二 1]，NN 相当 于 1-NN)。 当 处 理 多 元 分 类 时 ， 其 规则 在 于 选择 k- NN 中 的 主导 类 别 。 
MERERI SER 能 够 被 分 解 成 多 个 基本 单元 ， 称 为 k 阶 Voronoi 单元 ( 见 9. 9 
节 )， 其 中 在 每 个 单元 中 ，k 最 近邻 点 没有 发 生变 化 。k 阶 Voronoi 图 是 一 种 仿 射 图 ， 
JF B. k- NN 的 决策 边界 也 是 分 段 线 性 的 。 
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9.3 分 类 器 性 能 评估 


我 们 描述 了 基于 k-NN 规则 的 一 系列 分 段 线性 分 类 器 ， 这 些 分 类 器 使 用 标签 函数 
li (Zz) 对 观察 值 进行 分 类 。 对 于 训练 集 2 的 一 个 实例 +， 该 标签 函数 能 够 返回 xz 的 & 个 
最 近邻 所 属 类 别 中 占 大 多 数 的 类 别 。 为 了 选择 最 好 的 分 类 器 ， 我 们 需要 对 分 类 器 的 性 
能 进行 评估 。 


9.3.1 误 判 错误 率 


对 于 具有 上 个 未 标记 数据 的 测试 集 Q， 其 误 判 率 (misclassification rate) 或 错误 率 
(error rate) 的 简单 定义 如 二 : 


— EMAAR 





= Tmisclassification 





当 在 测试 集 甚至 训练 集中 类 别 标签 比例 不 平衡 时 ， 该 指标 是 有 问题 的 。 例 如 4 
我 们 将 电子 邮件 分 类 成 垃圾 邮件 Cseum 和 非 垃圾 邮件 (好 的 电子 邮件 )Cham 时 ， 得 到 的 垃 
圾 邮件 通常 比 正常 邮件 少 得 多 。 因 此 ， 如 果 我 们 试图 最 大 限度 地 减少 误 判 率 ， 那 么 将 
所 有 邮件 都 识别 为 非 垃 圾 邮件 就 足够 了 ,这 样 还 能 够 达到 很 好 的 错误 率 ! 这 就 突出 了 
需要 考虑 类 别 的 相对 比例 的 问题 。 


9.3.2 混淆 和 矩阵 与 真 / 假 及 阳性 /阴性 


假设 xz 的 正确 分 类 为 Cj ， 将 工分 类 为 C;( 预 测 类 别 ) 的 概率 为 wii， 那么 混淆 矩阵 
(confusion matrix) H[l 4 M=([m,,;]i,; : 





M = [m,;],;: mij = risa "T 
对 于 二 元 分 类 ( 即 两 个 类 别 )， 使 用 下 面 的 2X2 阵列 表示 四 种 情况 : 
真 (True) 预测 是 正确 的 
{i (False) 预测 是 错误 的 


阳性 (Positive) 预测 标签 是 类 别 C++ 
BATE ( Negative) 预测 标签 是 类 别 C 


























预测 标签 
C 
| Ca | 真 阳性 (TP) 假 阴性 (FN) 
ROME o | emeen | 真 阴性 (IN 


混淆 和 矩阵 的 对 角 线 表示 所 有 类 别 的 成 功率 。 误 判 数据 可 以 是 假 阳 性 (FP) 或 假 朋 性 
(FN): 
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e 假 阳 性 (FP) 是 数据 zx 被 错误 分 类 为 C1( 阳 性 类 别 ),， 但 其 真实 分 类 为 C A 
性 类 别 )。 在 这 种 情况 下 ,“ 阳 性 ”表示 “十 1”。 
e 类 似 地 ， 假 阴性 (FN) 是 数据 xz 被 错误 分 类 为 C_1( 阴 性 类 别 )， 但 其 真实 分 类 为 
Cr+1( 阳 性 类 别 )。 在 这 种 情况 下 ,“ 阴 性 ”表示 “一 1”。 
假 阳性 也 称 为 第 一 类 误差 (type DI error)， 假 阴性 称 为 第 二 类 误差 (type II error), 
类 似 地 ， 我 们 也 定义 了 真 阴 性 CTN) 和 真 阳 性 (TP)。 因 此 ， 错 误 率 可 以 表示 为 : 


= oN o TEIIN 
Terror C TP+TN-+FP+ FN TP+TN+FP+ FN 


其 中 TP+TN+FP+FN=t= |Q|, t ASTRAWARE. 








9.4 准确 率 、 召 回 率 和 F 值 


我 们 将 准确 率 (precision) 定 义 为 真 阳 性 在 阳性 分 类 CTP 和 FP) 中 所 占 的 比率 : 


d AP 
T Precision TP 十 FP 


可 以 很 容易 地 看 出 OK Tp eision Slo ME WAR HB TPE 8 FT A A BU EET BA EE AS HP BIE i 
分 类 的 样本 所 占 的 比率 。 
召回 率 (recall rate) 是 分 类 为 十 1(TP 和 FN) 的 数据 中 被 准确 分 类 为 十 1CTP) 所 占 
的 比率 : 
LP 
Trecal — TP+FN 

下 值 是 为 了 给 假 阳 性 和 假 阴 性 一 样 多 的 权重 而 构造 出 来 的 比率 。 它 定义 为 调和 平 

均值 9S 的 形式 ， 在 实践 中 经 常 被 使 用 : 


c" 2 X TPrecision X TRecall 
TF-score 一 





TPrecision + TRecall 
在 实践 中 ， 我 们 选择 产生 最 佳 了 值 的 分 类 器 。 例 如 ， 对 于 的 几 个 奇数 值 ， 可 以 
使 用 下 值 来 评估 k-NN 分 类 规则 ， 并 最 终 选 择 产生 最 佳 下 值 的 最 佳 & 值 。 


9.5 统计 机 器 学 习 和 贝 叶 斯 最 小 误差 界 


如 今 ， 在 大 数据 时 代 ， 假 设 训 练 集 Z 和 测试 集 Q 都 可 以 通过 统计 分 布 (来 自 具 有 
概率 密度 的 生成 模型 ) 进 行 建 模 是 很 合理 的 。 这 样 分 类 器 的 性 能 就 可 以 通过 数学 方法 进 
行 研究 。 我 们 假设 X(Z=(X, YNA Q 是 两 个 数据 集 ， 称 为 观察 (observation)， 它 们 
是 独立 同 分 布 (iid) 的 样本 ， 来 自 随机 变量 X. Y AZ. 我 们 用 X~isaD 表示 X 按照 概 








日 、 调 和 平均 数 定义 为 h(xz，y) 一 一 -一 二， 通常 用 来 平均 比例 数量 ， 
Li «e. 
2 y 
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率 分 布 卫 (比如 高 斯 分 布 ) 进 行 抽样 。 一 个 一 元 分 布 在 空间 民 表示 为 一 条 实 线 。 另 外 ， 
在 空间 R“ 中 存在 多 元 分 布 。 我 们 可 以 将 XX 解释 为 x Xdad 维 的 随机 向 量 。 让 我 们 回想 一 
下 ， 当 且 仅 当 Pr(X,=2,, X,=a2.)=Pr(X,; =2,) XPr(X,=2,) Hh, WA EIEE 
X, AX, 是 相互 独立 的 。 统 计 模 型 将 X 视 为 一 个 统计 混合 (Cstatistical mixture) 。 统 计 
混合 的 密度 在 数学 上 可 以 表示 为 : m = wp) Go +e, pz (a), HP w Al ws 分 别 为 
类 别 C, 和 Cs 的 先 验 概 率 且 满足 w =1— w; p; GO =Pr(X, | Y, CU) fli p; (x) = 
PrCX; | Y: 王 C? ) 是 条 件 概率 。 我 们 寻求 一 个 在 大 样本 限制 下 具有 良好 性 能 的 分 类 器 : 
即 当 ”> 十 ce 时 ， 分 类 器 能 够 渐 近 收敛 。 


9.5.1 非 参数 概率 密度 估计 


假设 独立 同 分 布 观 察 集 XX 二 {zi ，…，zn)} 是 从 一 个 固定 但 未 知 的 密度 p(x) 中 抽样 
得 到 ， 我 们 需要 对 其 满足 的 分 布 进行 建 模 。 对 于 p(x | 00 (属于 参数 向 量 为 9 的 分 布 ) 
相当 于 估计 该 分 布 的 参数 0( 见 图 9-4)。 例 如 ， 对 于 高 斯 分 布 p(x | 0— Qu. P), 我们 
使 用 最 大 似 然 估计 (Maximum Likelihood Estimator，MLE) 来 估计 均值 和 (无 偏 ) 方 差 ， 


EPIL 2 = 73 s NE uma? Xt oL S Co, 一 各)*。 当 分 布 无 法 由 辐 定 维 


度 的 参数 确定 时 ， 我 们 称 该 分 布 为 非 参数 分 布 。 参 数 分 布 通常 (但 不 一 定 ) 为 单 峰 9 ， 
这 些 模型 对 复杂 的 多 峰 密 度 (multimodal density) 建 模 缺 少 灵 活性 。 非 参数 密度 建 模 
(non-parametric density modeling) 方 法 更 加 灵活 ， 因 为 它 允 许 对 任何 平滑 密度 进行 建 
模 ， 其 中 包括 多 峰 平 滑 分 布 。 我 们 对 于 非 参 数 统计 建 模 提 出 一 个 关键 定理 。 





图 9-4 k=5 时 kNN 查询 示意 图 。 其 中 覆盖 k-NN 的 球 的 半径 为 性 (9)。 利 用 球 的 半 


p Uu 3- "EN AERE EN XN 
径 可 以 局 部 估计 X 所 满足 的 基本 分 布 ， 即 PEA T an, (aA 


定理 10 气球 估计 器 (balloon estimator) 46 BR 43-4 I] R^ 上 平滑 密度 p (xo d it 


C) ”密度 函数 模式 在 有 效 区 间 内 有 局 部 最 大 值 。 
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似 解 ， 即 p(x) veg. RP RARBPHARX WHAM E, VOD ARB t 
体积 。 

证 明令 Pk 表示 一 个 样本 z 落 在 区 域 R 中 的 概率 : PR 一 | pde. Bb n 
个 样本 中 的 大 个 样本 落 在 区 域 R 中 的 概率 通过 二 项 式 定理 计算 如 下 : 


n 
PR? = |, Ph a- nor? 


其 中 的 期 望 为 B[k] 一 nPe。 因 此 ，Pk 的 最 大 似 然 估计 Pr 为 生 。 假 设 密度 函数 是 连 
续 的 ， 并 且 区 域 尺 足够 小 使 得 户 (z) 可 以 在 R 中 视 为 常数 。 那 么 ,我们 有 ， 


| 轧 (z)dz 22 pCx)Vg 
ER 


其 中 Vg = | de 为 该 区 域 体积 。 因 此 密度 估计 为 oam, 
rER n 


可 以 用 两 种 方法 来 应 用 该 气球 估计 器 。 

e 第 一 ， 固 定 球 B 的 半径 (以 及 其 体积 V(B))， 并 且 计 算 在 给 定位 置 x 上 落 入 
球 B 中 点 的 数量 ,该 方法 扩展 了 一 维 直 方 图 法 (用 于 计算 平滑 单 变量 密度 的 
近似 值 ) 。 

e 第 二 ， 固 定 丰 的 值 ， 然 后 寻找 以 X 为 中 心 的 正好 包含 & 个 点 的 最 小 球 。 这 种 方 
法 称 为 kNN 的 非 参 数 估计 。 需 要 注意 的 是 ， 对 于 & 的 每 个 不 同 的 取 值 ， 我 们 
都 会 得 到 一 个 不 同 的 气球 估计 器 。 

Arn (x) AR RR OB, (ae) WER. KEV, GO 5 r GO" 成 正比 ， 其 中 的 常数 因 
子 只 取决 于 维度 大 小 : VCz) 王 cork (1) oer, G^, 


9.5.2 误差 概率 和 贝 叶 斯 误差 


任何 分 类 器 必然 会 有 非 零 的 错误 分 类 率 ， 因 为 两 种 类 别 的 分 布 X41 都 受 限 于 一 个 
事实 : 我 们 永远 不 能 100 儿 确定 正确 地 标记 了 一 个 样本 ， 误 判 错误 始终 存在 着 ! EN 
叶 斯 决策 理论 中 ( 即 假设 每 种 类 别 存 在 先 验 概 率 和 类 条 件 概率 )， 误 差 概 率 (probability 
of error) 表 示 分 类 器 的 最 小 误差 : 


P, = PrCerror) = [pGoPrterror 


zdz 


其 中 
PrCCH |£), 实际 类 别 为 Cy 
Pr(C, |x), 实际 类 别 为 CH 
贝 叶 斯 误差 (Bayesian error) 通 过 考虑 每 个 潜在 分 类 场景 的 代价 矩阵 (cost metrix) 
[cei,j ji,j 对 误差 概率 进行 了 扩展 : 矩阵 系数 ci 表示 在 已 知 一 个 新 观察 值 属于 类 别 C; 的 


Pr(error | x) = | 
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情况 下 ， 将 工分 类 为 Ci 的 代价 。 贝 叶 斯 误差 使 期 望 风险 最 小 化 ， 并 且 对 于 所 有 的 i75 
j，Gi,i 一 0( 表 示 当 正确 分 类 时 没有 惩罚 ) 和 cj,; 二 1( 表 示 误 分 类 的 单位 惩罚 代价 )， 最 后 
得 到 的 结果 和 误差 概率 P, 是 一 致 的 。 

回想 一 下 贝 叶 斯 基本 恒等式 (也 称 为 贝 叶 斯 法 则 或 贝 叶 斯 定理 ): 


Pr(z|C,)Pr(C;) 
Pr(x) 


这 可 以 很 容易 地 用 概率 的 链 式 法 则 (chain rule property) KRZR: 
Pr(A A B) = Pr(A)Pr(B | A) = Pr(B)Pr(A | B)=>Pr(B | A) = 





PrCC. lz) = 


PrCB)PrCA | B) 
PrCA) 


贝 叶 斯 分 类 中 最 小 化 误差 概率 的 最 优 规则 是 最 大 后 验 概率 (简称 MAP) 规 则 : 我 们 

将 工 归 为 类 别 C;， 当 且 仅 当 : 
PrCC; | x) = PrtC; | x5 

换 句 话说 ， 我 们 选择 能 够 使 后 验 概率 最 大 化 的 类 别 。 通 过 使 用 贝 叶 斯 恒等式 并 消 

去 公分 母 Pr(x)， 可 以 得 到 : | 
wiPr(z | C) > w;Prla | C), Yj =i 
这 相当 于 将 r 分 类 为 类 别 C;。 

由 于 不 知道 条 件 概率 Pror | C;) 和 人 先 验 概率 ,我们 需要 利用 实际 的 观察 值 对 它们 
进行 估计 。 我 们 可 以 通过 使 用 最 近邻 结构 的 气球 估计 器 来 对 这 些 分 布 进行 非 参数 估计 。 
不 失 一 般 性 ， 我 们 考虑 两 种 类 别 C., 的 情况 。 首先 ， 从 观察 值 的 各 个 类 别 的 频率 中 计 
算 先 验 概率 : 


Pr(C,,) = Wwy = 


然后 计算 类 条 件 概 率 如 下 : 





ka 
Prí | Ca) = i2 
ng V, 


其 中 V, 是 覆盖 了 zz Wk 个 最 近邻 的 球 的 体积 。 
类 伏地， 可 以 使 用 k-NN 来 估计 非 条 件 密度 (两 个 分 布 的 混合 分 布 ) : 








fuz 
mlr) ~x PAET 
我 们 用 MAP 贝 叶 斯 法 则 推导 出 后 验 概率 : 
ka nu 
un Prix | C44 ) Pr( Cy, ) ED nj4 V, n = Ray 
Fees] dip = Prís) o k P 
nV, 


至 此 ， 我 们 已 经 证 明了 k- NN 分 类 中 的 表决 规则 是 合理 的 ! 现在 ， 我 们 将 量化 
k-NN 分 类 器 和 最 小 误差 概率 P, 的 相对 性 能 。 
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9.5.3 k-NN 规则 的 误差 概率 


当 训 练 集 的 规模 和 测试 集 的 规模 变 得 足够 大 ， 并 渐 近 趋向 于 无 穷 (t1，n 一 十 2) 时 ， 
k-NN 规则 的 误差 概率 P,(k-NN) 最 差 为 最 小 误差 概率 P,( 已 知 类 别 的 先 验 概率 w | 和 
KRR pri (x), AH MAP 方法 得 到 ) 的 两 倍 : 

P, < Terror (NN) < 2P, 
对 于 多 类 别 的 情况 (m 宇 2 种 类 别 ) 和 NN 规则 ， 可 以 进一步 证 明 以 下 上 界 : 


p. < Terror (NN) = PLC 二 m P.) 


m —1 








定理 11 当 我 们 利用 k-NN 气球 估计 器 对 类 概率 进行 非 参 数 估计 时 ， 可 以 通过 乘 
法 误差 因子 在 2 以 内 的 k-NN 表决 规则 对 最 佳 贝 叶 斯 MAP 进行 近似 。 

需要 注意 的 是 ， 当 维度 很 大 时 ， 实 际 上 我 们 需要 大 量 的 样本 来 获得 该 理论 界限 。 
这 也 就 是 之 前 提 到 的 维 数 灾难 现象 ， 它 说 明了 在 高 维 空间 中 ， 间 题 变 得 更 加 难以 解决 ! 


9.6 在 计算 机 集群 上 实现 最 近邻 查询 


假设 现 有 分 布 式 内 存 的 也 个 计算 单元 (CUC 或 处 理 元 件 PE). 。 为 了 对 一 个 新 的 查询 
q 进行 分 类 ， 我 们 将 使 用 k-NN 查询 的 可 分 解 属 性 (decomposable property): 也 就 是 
说 ， 我 们 将 X= Ui X, 任意 分 割 成 成 对 的 不 相交 的 群 组 ， 并 得 到 : 
NN, G3) = NN, Gs Uf, NN, Gr. X) 


在 己 个 处 理 器 上 ， 我 们 将 X 分 割 成 己 个 大 小 为 石 的 群 组 (水 平 划 分 号 )， 并 在 每 个 


处 理 器 上 局 部 地 应 答 相应 的 查询 NN Cc. X). RUA. £40 B (master processor) 接 
收 从 属 进程 的 RP 个 元 素 ， 并 对 这 些 元 素 组 成 的 集合 执行 一 次 k-NN 查询 。 这 样 我 们 加 
速 了 时 间 复杂 度 为 OCdnk) 的 朴素 品行 算法 (P 二 1)， 并 获得 时 间 复 杂 度 为 O(dn 各) 二 


OCdk(kP)) 的 并 行 查询 算法 。 M EP p<,/* ut, 我 们 获得 最 优 线性 加 速 ， 时 
[a] &£ Zi RE ^y OCP), 


9.7 注释 和 参考 


关于 统计 机 器 学 习 和 k-NN 规则 的 更 多 细节 ， 我 们 推荐 参考 教材 [1]。k-NN 规则 
的 性 能 首先 在 文献 [2] 中 进行 了 研究 。k-NN 查询 已 经 得 到 了 深入 的 研究 , 但 是 实际 应 


O ”对 于 非常 大 的 维度 ， 我们 可 以 考虑 利用 垂直 分 割 ， 即 将 分 布 式 内 存 上 数据 的 维度 进行 分 块 。 
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用 中 (尤其 是 在 高 维度 下 ) 仍 然 存 在 关于 计算 几何 (computational geometry) 的 难题 3]。 
在 实践 中 ， 图 形 处 理 单元 (GPU ) 内 置 点 积 计 算 部 件 ， 非 常 适用 于 进行 快速 k-NN 查 
询 '。 对 于 一 个 算法 。 当 使 用 输入 规模 和 输出 规模 能 够 分 析 其 复杂 度 时 ， 则 称 该 算法 
是 输出 敏感 的 。 目 前 已 经 提出 了 一 种 输出 敏感 型 算法 ， 用 于 计算 平面 中 点 的 两 个 类 别 
之 间 的 决策 域 ， 参 见 文献 L[5]。 可 以 将 精确 的 上 一 NN 查询 转化 为 查找 常数 因子 1 十 s 内 
的 s-NN 的 问题 。 使 用 k-NN 规则 分 类 的 主要 优点 是 易于 编程 ， 可 以 直接 并 行 化 ， 并 且 
它 可 以 保证 渐 近 地 达到 贝 叶 斯 最 小 误 分 类 误差 的 性 能 界限 。 在 实践 中 ， 必 须 为 k-NN 
规则 选择 正确 的 & 值 : 对 于 较 大 的 & 值 ,决策 边界 变 得 更 平滑 ， 并 且 产 生 更 有 效 的 非 
参数 估计 条 件 概率 ， 但 是 需要 花费 更 多 的 时 间 来 响应 查询 ， 同 时 非 参 数 估计 的 局 部 性 
变 差 ， 降低 了 并 行 化 效果 ! 

实验 证 明基 于 大 数据 集 的 分 类 满足 回报 率 下 降 定 律 (law of diminishing returns) : 
即 训练 集 的 规模 越 大 ， 人 性 能 的 相对 提高 就 越 小 。 图 9- 5 是 这 种 现象 的 示意 图 。 这 是 因 
为 在 实践 中 这 种 独立 同 分 布地 对 标记 数据 进行 抽样 的 假设 是 不 成 立 的 。 贝 叶 斯 误差 提 
供 了 统计 机 器 学 习 中 的 任何 分 类 器 性 能 的 下 界 。 用 闭合 公式 来 明确 地 计算 贝 叶 斯 误差 
或 统计 模型 的 误差 概率 是 非常 困难 的 。 因 此 退 而 求 其 次 ， 可 以 用 闭合 公式 来 寻找 贝 叶 
斯 误差 的 上 界 [61 。 


测试 
误差 







5.1% 5.1% 501% 

叶 斯 误差 

IM 10M 100M — 测试 集 
规模 


图 9-5 实验 证 明基 于 大 数据 集 的 分 类 满足 回报 率 下 降 定律 : 训练 集 的 规模 越 大 ， 性 能 的 
相对 提高 就 越 小 。 这 是 因为 在 实践 中 这 种 独立 同 分 布地 对 标记 数据 进行 抽样 的 假 
设 是 不 成 立 的 。 贝 叶 斯 误差 提供 了 统计 机 器 学 习 中 的 任何 分 类 器 性 能 的 下 界 


k-NN 规则 有 很 多 的 扩展 形式 。 例 如 ， 可 以 通过 加 权 平 均 表 决 法 上 7 来 调整 上 个 邻 
居间 的 表决 规则 。 通 过 研究 高 维度 双色 Voronoi 图 ， 我 们 能 够 证 明 高 维度 下 k-NN X1 
界 是 分 段 线性 的 。 但 是 在 实践 中 ， 高 维度 Voronoi 图 的 计算 是 非常 困难 的 ， 因 为 其 计 


算 时 间 复 杂 度 为 Oall) C4 d=3 时 为 平方 复杂 度 )， 其 中 [z BG ERE RCE 
大 于 或 等 于 x 的 最 小 整数 ) 。 

让 我 们 回想 一 下 ， 与 最 优 MAP 贝 叶 斯 规则 相 比 ，k-NN 分 类 规则 渐 近 地 保证 了 大 
小 为 2 的 误差 因子 ， 但 是 该 分 类 器 需要 在 存储 器 中 存储 所 有 的 训练 集 。 这 对 于 大 规模 
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数据 集 来 说 是 无 法 接受 的 。 男 一 种 著名 的 分 类 技术 是 支持 向 量 机 (Support Vector Ma- 
chine，SVM) ， 该 技术 仅 存 储 4 十 1 个 d 维 数据 点 ， 用 于 构建 线性 可 分 双色 点 集 。 当 类 
别 不 是 线性 可 分 时 ， 可 以 使 用 所 谓 的 核 泪 数 (kernel trick) ERE AE BRA E n ES B]. fH 
其 在 该 空间 中 变 成 可 分 的 。 

最 后 ,我 们 来 讨论 一 下 模型 的 复杂 度 、 模 型 学 习 的 偏差 和 方差 以 及 预测 误差 。 在 
第 5 章 中 我 们 介绍 了 线性 回归 ， 来 促进 数据 科学 中 线性 代数 的 使 用 。 这 里 我 们 将 基于 
回归 的 分 类 和 k 一 NN 分 类 进行 对 比 。 

e 回归 模型 : 线性 回归 模型 的 模型 复杂 度 为 4 十 1， 表 示 用 以 拟 合 超 平面 的 系数 的 
个 数 。 回 归 学 习 模 型 具有 和 较 低 的 方差 (对 于 输入 扰动 而 言 ， 这 意味 着 模型 具有 稳 
EHE), 但 是 偏差 很 高 (这 意味 着 和 真实 的 分 类 差距 较 大 )。 

e k-NN 模型 : k-NN 分 类 器 的 模型 复杂 度 为 dXn， 该 复杂 度 非常 大 ， 主 要 取决 
于 训练 集 的 输入 规模 n. k-NN 分 类 器 的 特点 是 具有 和 较 低 的 偏差 ， 因 为 它 能 很 好 
地 拟 合 分 类 边界 ;但 它 的 方差 较 高 ， 因 为 训练 集 的 单 点 扰动 可 以 显著 影响 k 一 
NN 分 类 器 的 决策 边界 。 

图 9-6 说 明了 学 习 模 型 偏差 /方差 的 特征 根据 其 模型 复杂 度 的 变化 。 在 实践 中 ， 必 

须 选 择 具 有 适当 模型 复杂 度 的 学 习 模 型 。 模 型 复杂 度 越 高 ， 训练 样本 的 预测 误差 越 低 。 
然而 ， 在 某 种 程度 上 ， 存 在 过 拟 合 现象 ， 并 且 测 试 样本 的 预测 误差 会 增 大 而 不 是 持续 
下 降 。 因 为 我 们 关心 泛 化 误差 的 最 小 化 (而 不 是 最 小 化 训练 样本 上 的 误差 ， 在 训练 样本 
上 k-NN 分 类 器 可 以 达到 误差 为 0) ， 所 以 应 该 选择 合适 的 模型 复杂 度 ， 以 便 最 小 化 测 
试 样本 上 的 预测 误差 ( 见 图 9-6) 。 


高 偏差 


预测 误差 低 方差 Tum 


高 方差 








侧 试 样本 


训练 样本 





—-- 


低 模型 复杂 度 
回归 k-NN 


图 9-6 模型 复杂 度 、 学 习 模型 的 偏差 和 方差 ， 以 及 预测 误差 
9.8 总 结 


k-NN 分 类 规则 通过 选择 训练 集中 q 的 & 个 最 近邻 的 主要 类 别 来 标记 测试 集中 新 的 
观察 值 分 类 查询 g。 可 以 通过 计算 下 值 对 分 类 器 的 性 能 进行 评 佑 ， 其 中 下 值 是 准确 率 和 
召回 率 的 调和 平均 值 。 这 样 就 产生 了 一 个 统一 的 质量 值 ， 考 虑 了 对 观察 值 进行 分 类 时 可 
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能 发 生 的 四 种 不 同 的 情况 ( 真 / 假 一 阳性 /阴性 )。 在 统计 机 器 学 习 中 ， 分 类 器 性 能 永远 不 
可 能 超过 最 佳 贝 叶 斯 误差 (或 误差 概率 )，1-NN 能 够 保证 渐 近 获得 值 为 2 的 误差 因子 。 因 
为 最 近邻 查询 是 可 分 解 的 查询 ， 这 意味 着 NN (a X UX,)=NN, (NN, (qs Xj). NN, 
(gq，X;))， 这 样 就 能 够 比较 容易 地 在 诸如 计算 机 集群 的 分 布 式 内 存 架 构 上 并 行 化 k- 
NN 分 类 规则 。k-NN 规则 的 一 个 缺点 是 需要 存储 所 有 训练 集 以 便 对 新 的 观察 值 进行 
分 类 。 

用 于 显示 最 近邻 分 类 规则 的 代码 

图 9-7 显示 了 processing. org 程序 的 一 个 快照 。 








WW source code: NNDecisionBoundary .pde 





图 9-7 用 于 显示 最 近邻 决策 边界 的 processing 程序 的 快照 
9.9 练习 


练习 1( 精 简 最 近邻 分 类 器 的 边界 决策 ) 证 明 当 训练 集 的 元 素 具 有 相同 类 别 的 相 邻 Voronoi 单元 
( 称 为 自然 邻居 (natural neighbor)) 时 ， 可 以 安全 地 移 除 该 样本 ， 而 不 需要 改变 NN 分 类 规则 的 边界 决 
策 。 如 何 精简 k-NN 规则 的 训练 集 ? 


练习 2 C 条 件 高 斯 定律 的 误差 概率 ) 我 们 考虑 先 验 概率 w =w — 1 ， 以 及 单 变量 高 斯 分 布 





X, 一 N(ya，o) 和 X, 一 N(p,，o,) 的 条 件 概 率 。 回 想 一 下 正 态 分 布 的 概率 密度 为 p(x; p o= 1 
a Jon 


uu. 
2o ) 


. M 8, —0; 时 ， 精确 计算 误差 概率 P,a 
* 当 上 天 oa 时 ， 利 用 标准 正 态 累积 分 布 函数 OC * ITH P, 


exp( 
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e 因为 利用 闭合 公式 来 计算 P, 是 非常 困难 的 ， 所 以 将 minCa，b) 一 全 一 2 一 4 上 利用 数学 广 
法 转化 为 不 等 式 min(a, bab ^. Va€Q(O, DG, b>0)， 从 而 推导 出 高 斯 分 布 中 的 已 的 
上 界 公式 。 

练习 3(… kNN 规则 和 上 上 阶 维 诺 图 ”) 现 有 一 个 有 限 点 集 义 ={z,，…，z,)。 由 前 个 最 近邻 


引发 的 空间 RR" 的 分 解 会 生成 多 面体 单元 。 我 们 将 阶 Voronoi 图 定义 为 由 所 有 X MFI (^ )x co 


引发 的 空间 分 解 ， 距 离 函 数 为 ， DOX,. x)— min, DCz'，z)。 也 就 是 说 ，& MAREE V, (X) = 
{x | DOX,, 3) & DOX,, x). VIZIA FRAK l WA | X, | =k) EM WARS Soo V, CX R94 
合 。 如 何 简 化 k-NN 分 类 规则 的 边界 决策 ? 

练习 4U k-NN 分 类 规则 敏感 度 与 坐标 轴 数 量 级 的 关系 ) 基于 最 近邻 分 类 规则 的 分 类 器 的 性 能 
对 于 坐标 轴 的 标 度 是 非常 敏感 的 ， 因 为 它 可 能 显著 改变 欧 几 里 得 距离 。 在 实践 中 ， 必 须 找到 一 个 和 属 


性 相关 的 良好 的 加 权 规 则 (特征 加 权 ) 来 校准 * 欧 几 里 得 距离 ”: D Opp =,/ > w, C — 40! 。 研究 不 
同 的 属性 重 写 方法 并 讨论 其 性 能 " (参考 马 氏 距离 与 对 角 精 度 矩 阵 )。 
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第 10 章 
基于 核心 集 的 高 维 快速 近似 优化 和 快速 降 维 


10. 1 大 规模 数据 集 的 近似 优化 


人 们 通常 对 大 规模 数据 集 上 的 优化 问题 感 兴趣 。 对 于 这 类 问题 ,通常 不 是 计算 精 
确 的 最 优 解 (或 者 当 出 现 多 个 最 优 解 时 ， 选 择 其 中 一 个 最 优 解 )， 而 是 在 更 短 的 时 间 内 
寻找 一 个 可 靠 的 近似 解 (guaranteed approximation)。 例 如 ， 考 虑 k 均值 聚 类 问题 我 
们 试图 最 小 化 kk 均值 成 本 函数 (也 就 是 簇 方 差 加 权 和 ， 见 第 7 章 )。 在 一 些 稳定 性 假设 
下 指出 最 优 取 类 的 扰动 是 非常 有 意义 的 ， 这 样 代价 函数 (而 不 是 常规 k 均值 目标 函数 ) 
最 小 化 的 近似 解 最 终 会 得 到 一 个 很 好 (可 能 不 是 最 优 ) 的 聚 类 结果 。 

当 维 度 增加 时 ， 近 似 优化 更 具 吸 引力 ， 因 为 这 些 问题 通常 会 变 得 更 难以 解决 。 这 
种 现象 称 为 维 数 灾难 (由 Bellman 率先 提出 ， 他 是 动态 规划 范式 的 创始 人 )。 实 际 上 ， 
当 将 维度 d 作为 分 析 资 源 复 杂 度 问题 的 参数 时 ， 我 们 通常 会 获得 以 指数 形式 依赖 于 d 
的 算法 ， 因 此 在 实践 中 无 法 适当 地 对 维度 进行 缩放 。 


10.1.1 高 维度 的 必要 性 示例 


在 实践 中 ,通常 需要 对 内 部 的 高 维度 进行 操作 ， 即 使 原始 输入 数据 是 低 维 的 也 是 
如 此 。 这 里 ,我们 用 在 大 尺寸 目标 图 像 中 找到 尺寸 为 sXs 的 源 图 像 块 (source image 
patch) 作 为 示例 。 为 了 简单 起 见 ， 只 考虑 每 个 像素 点 存储 一 个 灰 度 值 ( 灰 度 通道 ) 的 强 
度 图 像 。 我 们 通过 堆 生 图 像 块 中 像素 点 的 强度 值 (比如 ， 按 照 扫 描 行 顺序 ) 将 图 像 块 表 
示 为 维度 d= s° 的 向 量 。 这 样 我 们 就 对 图 像 块 进行 了 向 量化 (或 线性 化 )。 对 于 在 (大 ) 
目标 图 像 中 维度 为 n 二 包 Xh 的 给 定位 置 的 图 像 块 ， 处 理 方法 是 相同 的 ， 其 中 ww 和 分 
别 表示 图 像 的 宽 和 高 。 因 此 ,我们 可 以 将 大 图 像 诠释 为 维度 为 d= 二 s* 的 工 个 点 组 成 的 
“ 云 "， 这 是 目标 图 像 的 所 有 sos 的 图 像 块 组 成 的 集合 。 对 于 位 于 图 像 边 界 的 像素 点 ， 
我 们 考虑 固定 强度 值 。 因 此 对 于 给 定 的 图 像 块 查询 ， 找 到 目标 图 像 中 最 佳 块 位 置 ( 即 ， 
使 平方 误差 之 和 (Sum of Squared Error，SSE) 最 小 ) 相 当 于 在 维度 为 4 二 s? 的 高 维度 空 
间 中 查找 最 近邻 。 
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10. 1.2 高 维度 上 的 一 些 距离 现象 


对 于 很 高 的 维度 ， 我 们 会 发 现 一 些 反 直 觉 的 现象 (幸运 的 是 ， 它 们 在 数学 上 能 够 得 
到 很 好 的 解释 ) 。 例 如 ， 维 度 d 上 半径 为 ~ 的 球 的 体积 Vs (7 的 计算 公式 如 下 : 


d/2 
Vi(r) = $ 
$1) 


其 中 一 表示 欧 拉 函数 ， 它 是 阶乘 函数 的 推广 : IO = | ae de CR k>2 BREN 


时 ， 有 Ge) 一 (一 1)1)。 因 此 随 着 维度 d 的 增加 (d 一 co)， 单 位 半径 的 球 的 体积 趋向 
于 0。 以 原点 为 中 心 的 单位 球 与 以 原点 为 中 心 的 边 长 为 2 的 立方 体 的 24 个 面相 接 。 因 
此 ， 随 着 维度 的 增加 ， 球 覆盖 的 包含 它 的 立方 体 2 的 体积 的 比例 越 来 越 少 。 这 对 
Monte-Carlo 拒绝 抽样 法 (也 就 是 用 我 们 在 第 一 部 分 中 估算 x 的 方法 来 估算 单位 球 的 体 
积 ) 有 着 显著 的 影响 ， 这 可 能 需要 更 多 (指数 级 ) 的 同 维度 的 样本 。 


10.1.3 ”核心 集 : 从 大 数据 集 到 小 数据 集 


我 们 发 现 对 于 优化 问题 ， 有 时 会 存在 一 些小 规模 的 子 集 (有 时 甚至 独立 于 维度 4 和 
输入 规模 n)， 这 些 子 集 称 为 核心 集 (core-set)， 其 中 的 最 佳 优化 方案 是 基于 核心 集 为 整 
个 数据 集 提供 一 个 可 靠近 似 解 。 有 趣 的 是 ，k 均值 也 是 这 种 情况 。 因 此 核心 集 能 够 将 
大 规模 数据 集 转化 为 小 数据 集中 ] 。 因 此 它 是 处 理 大 数据 的 一 项 重要 技术 ! 


10.2 ”核心 集 的 定义 


现在 让 我 们 精确 地 定义 用 于 快速 近似 优化 的 核心 集 。 对 于 数据 集 XS {r s T) 
上 的 优化 问题 ， 用 数学 方式 表示 如 下 : 
minf <6 | aye st) 


其 中 0 表示 用 于 优化 的 模型 参数 (例如 ，k 均值 中 的 上 个 原型 )，@ 表示 可 接受 参数 空 
间 。 最 小 成 本 | 的 最 优 解 9 (或 者 当 存 在 多 个 最 优 解 时 的 其 中 一 个 最 优 解 ) 可 以 通过 
如 下 方式 获得 : 

0* = soll | X) = argming e f (0 | x1 ss Ta) 


c" — cost(8 | X) = minf(0 | x, .**,m,? 
$c 8 


我 们 不 是 在 整个 数据 集 X 上 求解 这 个 优化 问题 ， 而 是 找到 一 个 核心 集 的 子 集 CS 
X， 这 样 我 们 得 到 如 下 不 等 式 : 


日 4d>3h. 通常 称 为 超 立 方 体 。 
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cost(@ | X) < cost(@ | C) < (1+ €)cost(@ | X) 
ob, Bila BA|C|<|X| S X 的 规模 相 比 ，C 的 规模 可 以 忽略 不 计 ， 也 就 
是 |1C|=o(C|X|I))。 也 就 是 说 ，C 的 基数 和 X 的 相 比 应 该 非常 小 ， 理 想 情况 是 |C| 仅 
依赖 于 s 之 0( 而 不 依赖 n= |X| ， 也 不 依赖 ri 的 环绕 空间 的 维度 & ) 。 


10.3 最 小 闭 包 球 的 核心 集 


最 小 闭 包 球 (Smallest Enclosing Ball? ，SEB) 要 求 找到 一 个 完全 覆盖 X 的 半径 最 
小 的 球 B= 二 Ball(c，r)。 我 们 将 这 个 优化 问题 建 模 如 下 : 





最 小 闭 包 球 被 证 明 总 是 独一无二 的 ， 其 中 心 ( 称 为 外 心 ) 可 由 c* 表示 。 需 要 注意 的 
是 ,除了 最 小 化 半径 ,我 们 可 以 等 效 地 选择 体积 (半径 的 雷 函 数 )， 或 定义 和 包含 运算 
符 己 相关 的 “最 小 值 "。 图 10-1 是 平面 点 集 上 最 小 闭 包 球 的 示例 。 


图 10-1 平面 点 集 上 最 小 闭 包 球 的 一 个 示例 。 对 于 一 般 的 点 集 ， 最 多 有 三 个 点 位 于 图 的 
边界 上 (维度 为 d 时 至 多 有 d 十 1 个 ) 


H cOO Xem X 的 最 小 闭 包 球 的 中 心 ，SEB(X) 王 Ball(c(X)，r(X))，r(X) 为 球 
的 半径 。 对 于 任意 的 e 之 0，e 核 心 集 是 X 的 一 个 子 集 CSX， 且 满足 ; 
X € Ball(e(C) , C1 + €)r(C)) 
也 就 是 说 ， 通 过 使 用 相似 因子 1 十 e 来 放大 最 小 闭 包 球 ， 同 时 保持 中 心 不 变 ， 我 们 
就 能 完全 覆盖 X. E 10-2 显示 了 最 小 闭 包 球 的 一 个 核心 集 示例 。 文 献 [L2，3j 已 经 证 明 


了 对 于 最 小 闭 包 球 存在 最 优 规模 为 [二 | 的 核心 集 ， 该 最 优 规模 与 维度 d 以 及 原始 输入 
HUS n 无 关 ! 





© 在 一 些 文献 中 也 称 为 minimum enclosing ball 或 minimum covering ball, 
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10-2 核心 集 示例 : 核心 集 C 由 图 中 正方 形 包 围 的 点 表示 。 通 过 因子 1 十 e 放 大 最 
小 闭 包 球 SEB(C)， 我 们 能 够 完全 覆盖 X: XCBall(c(C), (1+€)r(C)) 


在 实践 中 ， 核 心 集 在 高 维度 场景 中 有 着 广泛 的 应 用 ， 即 使 当 don 时 也 是 如 此 。 也 
就 是 说 ， 当 数据 元 素 的 数量 远 小 于 数据 的 维度 时 ， 这 些 数据 能 够 被 包含 在 整个 空间 的 
一 个 合适 的 子 空间 中 (用 外 维度 (extrinsic dimension) og W825 [A] R^ 的 维度 ) AR 
Æ (intrinsic dimension) 是 包含 所 有 数据 的 子 空间 的 最 小 维度 。 例 如 ， 考 虑 空间 R” 中 
的 3 个 点 : 外 维度 为 5， 当 三 个 点 作为 非 退 化 三 角形 的 顶点 时 ， 内 维度 为 2( 平 面 ); 当 
三 个 点 共 线 时 (退化 三 角形 )， 内 维度 为 1( 直 线 )。 

我 们 注意 到 在 dn 的 情况 下 ， 不 失 一 般 性 ， 可 以 通过 数学 方法 获得 普通 位 置 的 点 
所 在 的 维度 为 d —n— 1 的 仿 射 子 空间 (即将 外 维度 降低 到 内 维度 )。 当 且 仅 当 维 度 为 
的 仿 射 子 空间 中 不 存在 & 十 1 个 点 时 ， 则 认为 个 点 处 于 普通 位 置 (general position) 
(例如 ，3 个 共 线 点 不 处 于 普通 位 置 )。 然 而 准确 地 计算 该 仿 射 子 空间 需要 计算 行列 式 ， 
这 不 仅 耗 时 而 且 实际 的 数值 计算 非常 不 稳定 ， 因 为 当 我 们 进行 乘法 操作 时 会 造成 数值 
精度 的 损失 。 


10.4 一 个 用 来 近似 最 小 闭 包 球 的 简单 迭代 启发 式 方法 


下 面 我 们 介绍 一 个 (1 十 e) 近 似 启 发 式 算法 ， 能 够 使 用 | 十 | 次 迭代 来 计算 最 小 闭 包 
球 的 近似 解 。 例 如 ， 要 获得 1% 的 近似 解 、 我 们 需要 执行 10 000 KER. EUTF: 
APPROXMINIBALL(X, €>0): 
。 初 始 化 中 心 ci € Xo Gy. os xy) (也 可 以 选择 其 他 任意 的 点 作为 中 心 c 或 质 
心 ， 实 际 上 我 们 需要 这 个 初始 点 位 于 X 的 凸 包 内 )。 


。 当 ;==2，…, [证 | 时 ， 对 当前 让 心 进行 迭代 更 新 如 下 ， 


昌 ”为 了 绕 开 数值 精度 问题 ， 我 们 不 能 使 用 通常 的 IEEE 754 浮 点 标准 ,而 是 使 用 一 种 多 精度 函数 库 ， 如 
GNU mpf 多 精度 浮 点 软件 包 。 
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fea 


<= guo pM 
i 


其 中 f; 表示 X 中 相对 于 当前 外 心 c; 的 最 远 点 : 


fi = pss = argmaxj- Il c; — a; || 





e 返回 Ball(c | ]* max, | z—c[3| |. 


obs 
2 


€ 


AES HRA ARB EK BE, Qe s RAR O( d"). 另外， 该 (贪心 ) 启 发 式 


算法 还 能 构建 一 个 核心 集 foo foe XR 1T [3]. 图 10-3 gos T Wok t 


E2 


之 后 的 结构 ， 以 及 相应 的 核心 集 。 该 算法 所 产生 的 核心 集 的 规模 为 [二 |， 但 不 是 最 优 
的 ， 因 为 我 们 已 经 知道 对 于 最 小 闭 包 球 存在 最 优 的 核心 集 ， 其 最 优 规模 为 [二 |。 





图 10-3 可 视 化 核心 集 启 发 式 算法 ， 该 算法 用 于 近似 一 个 点 集 的 最 小 闭 包 球 : 圆 点 显示 
当前 的 外 心 ， 正 方形 表示 距离 当前 外 心 最 远 的 点 ， 填充 圆 盘 的 点 组 成 的 集合 即 
为 核心 集 


10.4.1 收敛 性 证 明 
定理 12 最 小 闭 包 球 Ball(c* ,r* ) 的 外 心 c* 是 由 算法 APPROXMINIBALL 近似 


Ah. RPC SPAR RARE FAM POM: cc" Le 
1 


该 定理 保证 我 们 得 到 一 个 (1 十 二 ) 近 似 。 实 际 上 ， 对 于 所 有 c6 X， 利 用 欧 几 里 得 
距离 的 三 角 不 等 式 ， 我 们 可 以 得 到 ， 


& SW (EZ http://kenclarkson. org/sga/t/t. xml, 
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lad aot EL Rut ell ee” Em kd 


下 面 简要 介绍 该 定理 的 技术 证 明 。 我 们 采用 归纳 法 : 对 于 ， 有 la 一 c* lS 
r”。 在 第 i 阶段 ,分 为 以 下 两 种 情况 : 


9 p =e “AY. 我 们 最 多 移动 二 二 二 一 一 一 E 最 终 得 到 | Citl | x 


"E 
ec He 时 ， 我 们 考虑 线段 [e* cj] 的 正 交 超 平面 ， 它 包含 ce”。 我 们 用 五 "表示 不 
包含 c; 的 由 互 界定 的 半空 间 ， 用 五” 表示 其 他 互补 的 半空 间 ( 见 图 10-4) 。 最 远 
点 f 必然 包含 在 XX 门 H* 。 这 里 又 分 为 两 种 新 的 情况 。 
— ap EH: 45 c —c* 时， BERE || cc 是 最 大 的 , 因此 上 cj1 一 ce* |< 
HIT VERD 
一 qu € H^ :通过 将 ci 移 到 c* 的 最 远 处 并 在 离 HO 最 近 的 球面 上 选取 f. R 
们 必然 能 够 增 大 距离 ‖ cic | 。 在 这 种 情况 下 ， 线 段 [c* ci41] 与 线段 
[ci 门 正 交 ， 并 且 利用 色 股 定理 2 ， 可 以 得 到 : 
《元 Ye 
AS Es 


ha i 
为 了 保证 1% 的 精度 ， 启 发 式 算法 APPROXMINIBALL 需要 执行 10 000 次 和 迭代。 
因此 这 是 比较 耗 时 的 ， 但 其 优点 是 能 够 适用 于 任何 维度 。 











|l Ciy C 








10-4 证 明 过 程 中 所 使 用 的 符号 


© 勾 股 定理 是 欧 几 里 得 几何 的 一 个 里 程 碑 。 它 指出 对 于 直角 三 角形 ， 斜 边 的 平方 ( 即 与 直角 相对 的 一 边 ) 等 
于 两 条 直角 边 的 平方 和 。 
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10.4.2 小 闭 包 球 和 用 于 SVM 的 边缘 线性 分 离 器 


最 小 闭 包 球 的 计算 可 以 在 数学 上 抽象 为 二 次 规划 (Quadratic Programming, QP) 
问题 ， 即 在 给 定 一 组 线性 约束 (每 个 点 有 一 个 约束 条 件 ) 下 ， 来 最 小 化 平方 半径 ， 参 见 
文献 [4]。 我 们 已 经 在 第 9 章 介 绍 了 用 于 分 类 的 上 最 近邻 规则 (有 监督 学 习 ) 。 另 一 种 比 
较 流行 的 有 监督 学 习 技 术 为 支持 向 量 机 (Support Vector Machine, SVM), SVM 利用 
使 间隔 (margin) 最 大 化 的 分 离 超 平面 (separating hyperplane) 来 区 分 两 种 点 (标记 为 十 1 
的 点 和 标记 为 一 1 的 点 )， 其 中 间隔 定义 为 一 个 点 到 SVM 分 离 超 平 面 的 最 小 距离 。 可 
以 证 明 寻 找 具 有 最 佳 间隔 的 分 离 超 平面 等 价 于 计算 一 个 最 小 封闭 球 [] 。 球 的 核心 集 可 
以 用 来 定义 SVM 中 一 个 良好 的 分 离 超 平面 。 这 种 技术 产生 了 所 谓 的 核心 向 量 机 站 
(Core Vector Machine, CVMD, ， 它 是 机 器 学 习 中 比较 流行 的 技术 。 


10.5 k 均值 的 核心 集 


我 们 在 第 7 章 介 绍 了 当 d>1 H 这 1 时 ,通过 最 小 化 k 均值 目标 函数 来 对 数据 进 
行 聚 类 是 NP 难 的 。 我 们 可 以 将 集合 C 中 关于 & 个 原型 中 心 的 均值 写 为 lc(X) = 
2.0" kash, 其 中 D(x, ORR x FC PAR 个 原型 中 心 之 间 的 最 小 平方 欧 几 里 得 
re 
距离 。 

我 们 说 S BX 的 一 个 (&， 外 核心 集 当 且 仅 当 

VC = (cysts) (1— Ole CO) < le (S) <A ee(p) 


feet, FERMEN OCF) Ce, o good. 并且 在 高 维度 中 ， 可 以 证 明 存在 


规模 为 OC 如 /ex+1) 的 核心 集 [ 中 。 因 此 ， 我 们 可 以 在 大 规模 数据 集 上 进行 k 均值 聚 类 ， 
因为 核心 集 的 规模 和 输入 规模 n 无 关 。 


10.6 基于 随机 投影 矩阵 的 快速 降 维 


10.6.1 维 数 灾难 


维 数 灾难 是 由 Bellman( 著 名 动态 规划 技术 的 发 明 者 ) 首 次 提出 。Bellman 注意 到 
算法 的 效率 取决 于 数据 的 维度 ， 也 就 是 向 量 中 属性 的 个 数 。 例 如 ， 计 算 两 个 维度 为 
d 的 向 量 之 间 的 距离 ( 相 异 度 ) 或 相似 度 所 需 的 时 间 为 0(d)。 依 赖 于 分 区 数据 结构 的 
算法 通常 有 一 个 和 维度 d 相关 的 指数 级 的 时 间 复 杂 度 ， 它 隐藏 在 大 O 表示 的 符号 
O04(1) 中 。 此 外 ， 在 高 维度 中 可 视 化 数据 集结 构 是 极其 困难 的 。 如 今 ， 高 维度 数据 
集 的 使 用 是 非常 常见 的 (例如 ， 基 因数 据 的 维度 d= 二 1000)， 并 且 有 时 候 外 维度 远大 
于 数据 量 n: dn. 
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在 高 维度 下 有 很 多 反 直 觉 的 事实 : 
e 例如 ， 随 着 维度 的 增加 ， 与 单位 立方 体内 切 的 单位 直径 球 的 体积 趋向 于 0。 实 


际 上 ， 对 于 半径 -一 去 的 球 ， 其 体积 Vi 的 计算 公式 如 下 ， 


a 
nz 
Vi = rd ， r= 


l 
(ep 





其 中 ro) = | 46d 是 阶乘 函数 的 扩展 形式 。 对 于 n€ N， 有 Cn) = 
(7 一 1)1。 

e SR? 中 边 长 为 1 的 规则 网 格 (regular grid) 有 /4 个 基本 超 立 方 体 ， 其 数量 随 
着 维度 d 呈 指 数 级 增长 (以 一 edeg ) ， 而 一 个 自 适应 细 分 在 非常 大 的 维度 上 是 不 


可 扩展 的 。 

© Monte-Carlo 随机 积分 (| <)> 在 高 维度 上 是 无 效 的 (在 计算 高 维度 积分 时 有 
太 多 的 拒绝 样本 )。 

。 如 文献 [6] 所 强调 的 那样 ,“…… 到 最 近 数 据点 的 距离 与 到 最 远 数据 点 的 距离 逐 
渐 接 近 soari » 


10.6.2 高 维度 任务 的 两 个 示例 


首先 看 一 下 在 个 图 像 集合 中 查找 近 重 复 图 像 C(near duplicate image) 的 任务 。 按 
照 扫描 行 的 顺序 堆 释 所 有 像素 颜色 的 三 元 组 ， 将 维度 wXh 的 RGB 彩色 图 像 TLyj][Lx] 
转化 成 维度 民 ; 江 的 向 量 v(I)。 这 个 过 程 称 为 图 像 向 量化 (image vectorization)。 然 后 
VEE 2p EZ Fe (Sum of Squared Difference，SSD) 作 为 两 个 图 像 I 和 I, 的 距离 : 


w 


h - 
SSD( Iz) = >) >) ALG] n ED D* = | oi) — vd |? 
i=] 1 


对 于 数据 库 中 的 一 个 图 像 ， 如 果 与 其 最 相近 的 图 像 ( 最 近邻 查询 ，NN) 之 间 的 距离 
很 小 ,那么 该 图 像 即 为 近 重 复 图 像 。 也 就 是 说 ， 对 于 一 个 指定 值 s， 当 满足 SSD(T， 
NN(CD) 入 < 时 ， 则 图 像 [ 有 近 重 复 图 像 。 解 决 NN 查询 的 一 种 简单 算法 所 需 的 时 间 为 
OCdn)， 其 代价 非常 高 的 。 因 此 ， 由 近 重 复 图 像 问题 提出 了 如 何在 亚 线性 时 间 od) A 
高 效 地 计算 高 维度 最 近邻 。 

对 于 第 二 种 示例 ， 我 们 选择 海量 图 像 的 聚 类 问题 。 在 该 示例 中 我 们 使 用 MNIST 
数据 集 S ， 该 数据 集 包含 n=60 000 个 美国 邮政 编码 手写 数字 (从 数字 “0’ 到 数字 9’)， 
每 个 数字 被 存储 为 28X28 灰 度 图 像 。MNIST 数据 库 的 图 像 向 量化 会 产生 一 个 具有 适 


日 ”可 免费 在 线 获 取 ， 具 体 参 见 https://en. wikipedia. org/wiki/MNIST database, 
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当 维 度 的 点 云 ， 其 维度 为 d=28°=784, MEEF, 我们 希望 获得 10 TR, BR 
中 所 有 的 数字 都 是 相同 的 。 但 是 利用 上 均值 聚 类 技术 实现 该 数据 集 的 聚 类 太 慢 了 。 这 
就 需要 一 种 不 同 的 方法 : 如 何在 保留 数据 库 元 素 两 两 之 间距 离 的 同时 进行 有 效 的 降 维 ? 


10.6.3 线性 降 维 


考虑 空间 民 *” 上 由 个 向 量 组 成 的 数据 集 X。 可 以 认为 X 是 nXd 的 和 矩阵， 其 中 拢 
阵 的 每 一 行 存储 一 个 数据 点 ( 行 向 量 约定 )。 首 先 我 们 可 以 想到 两 种 降 维 技术 : 

。 选择 需要 保留 的 维度 ， 删 除 其 他 不 重要 的 维度 ， 也 就 是 进行 特征 选择 (feature 

selection ) 。 

e 将 维度 进行 重新 组 合并 形成 新 的 维度 ， 同 时 尽 可 能 多 地 保留 距离 信息 。 

线性 降 维 (linear dimension reduction) 指 的 是 将 每 个 输入 向 量 x 通过 一 个 线性 映射 
(linear mapping) A; R^--R* 转化 为 另 一 个 向 量 y=y(Cz)E R*G—2. PESCE 
示 如 下 : 

y=XXAY= XXA / 

A 是 一 个 规模 为 4 Xk 的 矩阵 (zx 和 ?3 都 是 行 向 量 )。 我 们 寻找 一 个 矩阵 A， 用 来 保 

存 数据 集 X 中 两 两 元 素 之 间 的 距离 ( 淮 等 距 租 入 ): 
Va € X lyy | = | eA—aA ll? = | z-z ||? 

一 旦 找到 A， 我们 就 能 得 到 X 的 更 紧凑 的 表示 形式 : XXA。 如 何 有 效 地 找到 这 

样 一 个 矩阵 变换 A? 


10.6.4 Johnson-Lindenstrauss 定理 

Johnson-Lindenstrauss 定理 所 在 降 维 方面 取得 了 突破 性 进展 。 

定理 10. 1(Johnson-Lindenstrauss 定理 []J)X AFR! ER n 个 点 的 集合 ，eE (0， 
1)。 存 在 一 个 线性 变换 人 RRt, X &—O(l1g 2). WE: 


e 
Vr,z €X,.üu—o9lz—zl*slzA—zAl?szü-olz—z I? 
Johnson-Lindenstrauss Æ JEJE i, E% AE b AF HE — Mk BK A Clow distor- 
tion embedding), ifi H 7 3) 4 BE A=O(2 log nn) 的 拟 等 价 点 集 ， 其 维度 与 外 维度 d 
KX. 








10.6.5 随机 投影 矩阵 


存在 一 种 简单 的 方法 来 找到 一 个 良好 的 线性 变换 A: 利用 如 下 方法 随机 生成 其 
。 独立 同 分 布地 随机 生成 矩阵 A 的 系数 ， 其 中 每 一 个 系数 服从 标准 正 态 分 布 ， 
A’ = [as lran; ~ N01) 
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一 个 标准 正 态 随机 变量 z 一 N(0，1) 是 通过 两 个 独立 同 分 布 均匀 分 布 Ui ILU; 
通过 Box-Muller 变换 得 到 . 
x = J/— 2log U, cos(2xU;) 
© SA JE i] 3 BE OL Ae EE KY FE Pi : 
A — =a’ 
我 们 利用 该 方法 来 解决 高 维度 图 像 聚 类 问题 : 利用 这 种 易 实 现 的 降 维 技术 ， 可 以 
很 容易 地 将 包含 ?个 彩色 图 像 的 数据 集 进 行 聚 类 ， 其 中 图 像 的 维度 从 300 X 300 
( 民 2 ”073 一 民 "0) 降 为 & 一 532(R 2)， 同 时 能 够 达到 相似 的 聚 类 效果 。 这 样 我 们 
取得 了 一 个 很 高 的 加 速 比 ， 因 为 Lloyd 的 均值 启发 式 算法 在 维度 d 下 最 初 需要 
O(sdkn) Bs [8] GEP s 表示 迭代 次 数 )， 经 过 降 维 处 理 之 后 仅 需 要 Og (skn log n) 时 间 。 需 
要 注意 的 是 ， 在 准 相似 降 维 数据 集 上 调用 下 均值 之 前 ， 需 要 花费 Oe (nd log nn) 的 时 间 
来 计算 数据 投影 。 
我 们 跳 过 用 于 解释 结构 合理 性 的 理论 背景 ， 着 重 介绍 Johnson-Lindenstrauss 理论 中 
的 一 些 最 新 研究 成 果 。 第 一 ， 当 使 用 线性 变换 时 维度 二 Qle ?log nn) 是 最 优 的 "中 。 第 二 ， 
通过 掷 山 子 获 得 的 具有 随机 理性 权重 鸟 的 随机 投影 矩阵 效果 会 更 好 。 例 如 ， 选 择 


l, 概率 为 二 
4 2 
aij =40 概率 为 二 


—1, EET 


B=, MARAMI: 只 要 有 O( 士 ) 非 零 系数 即 可 站 0]。 


10.7. 注释 和 参考 


对 于 最 小 团 包 球 存在 规模 为 [二 | 的 核心 集中 ， 且 核心 集 规 模 只 和 < 有关， 与 输入 数 
据 规模 n 以 及 环绕 空间 维度 d 无 关 ， 这 是 一 个 相当 惊人 的 研究 成 果 。 这 个 发 现 允 许 我 
们 根据 核心 集 框架 重新 审视 许多 经 典 的 优化 问题 。 可 以 通过 计算 最 小 闭 包 球 来 找到 最 
佳 的 分 离 超 平面 ， 从 而 最 大 化 支持 向 量 机 的 边 距 (从 技术 上 讲 ， 最 小 闭 包 球 是 核心 向 量 
机 中 的 对 偶 问 题 中 ) 。 在 聚 类 问题 中 已 经 对 核心 集 进 行 了 研究 喇 dn k 均值 或 其 他 目 
标 函 数 聚 类 。 这 就 为 大 规模 数据 集 的 聚 类 打开 了 方便 之 门 。 核 心 集 的 基本 原理 [是 将 
大 规模 数据 集 转化 为 小 规模 的 核心 集 ， 并 引入 了 近似 因子 ec。 我 们 推荐 阅读 文献 [11]， 
以 了 解数 据 挖掘 和 大 数据 面临 的 一 些 挑战 ， 其 中 也 包括 对 核心 集 的 讨论 。 目 前 有 很 多 
关于 线性 降 维和 非 线性 降 维 的 技术 ， 其 中 非 线性 降 维 有 时 也 称 为 流 形 学 习 (manifold 
learning)， 它 是 非 线 性 降 维 的 一 种 特殊 情况 。 
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10.8 总 结 


解决 一 大 类 优化 问题 的 关键 在 于 优化 数据 集 上 的 参数 化 函数 。 核 心 集 是 完整 数据 
集 的 一 个 子 集 ， 基 于 核心 集 的 优化 结果 能 够 产生 一 个 可 靠近 似 解 。 存 在 用 于 计算 最 小 


闭 包 球 的 规模 为 [ 亏 | 的 核心 集 ， 核 心 集 规模 和 输入 规模 n 以 及 外 维度 4 无 关 。 规 模 为 
OR? /eit1) 的 核心 集 用 于 计算 均值 成 本 函数 的 近似 解 ， 并 且 能 够 保证 (1 十 e) 近 似 。 
这 些 核心 集 的 规模 都 与 输入 规模 n 无 关 ， 只 依赖 于 近似 因子 1+e。 因 此 ， 利 用 核心 集 
能 够 将 大 规模 数据 集 上 的 问题 转化 为 小 规模 数据 集 问题 ， 从 而 产生 一 个 有 效 的 范式 来 
处 理 大 数据 或 数据 流 。 


10.9 练习 


练习 1( 最 小 闭 包 球 和 最 远 Voronoi A) ”证 明 点 集 匀 二 {zx,，*…，Zx,} 上 最 小 闭 包 球 的 外 心 c ”必然 
位 于 最 远 Voronoi 图 中 。 我 们 通过 道 转 不 等 式 来 定义 最 远 Voronoi 图 的 Voronoi 单元 : | 
V(x) = te pre = < laa, | _Ve eat 
Alte ioc V. Cr) ESE SRA. Hor HC o, 是 X 中 的 最 远 点 。 
#5] 2LAPPROXMINIBALL 的 并 行 启发 式 算 法 ) 设计 如 何在 已 个 机 器 组 成 的 分 布 式 内 存 集群 上 
利用 MPI 并 行 实现 启发 式 算 法 APPROXMINIBALL, 你 的 算法 的 复杂 度 是 多 少 ? 
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第 11 章 
图 并 行 算法 


11.1 在 大 图 中 寻找 (最 ) 稠 密 子 图 


11.1.1 问题 描述 


令 G= 二 (V，E) 表 示 一 个 图 ， 其 中 |V|==n AR RaW), |E] =m. 我 
们 寻找 一 个 子 图 VSYV 使 得 下 列 图 密度 函数 能 够 达到 最 大 值 ， 


ja — LECW 
其 中 EWV’)={((u, VEE | (u, VEV XV ( 即 两 个 节点 都 应 该 属于 顶点 子 集 ) 。 


SH GIV'—(O', EW )) 表 示 这 个 受 限制 的 子 图 。 换 言 之 ， 子 图 的 密度 就 是 该 子 图 


n(n—1) EN 


平均 的 度 。 对 于 一 个 完全 图 ， H G=K,, 因此 我 们 有 Pmax 7 pCV) = 77 5 
该 密度 是 所 有 图 中 最 大 的 密度 。 
因此 ， 寻 找 密度 为 p* 的 最 稠密 子 图 (简称 DSG 问题 ) 可 以 等 同 于 下 列 优化 问题 ， 
p” = maxp(V’) 
V'ey 


需要 注意 的 是 ， 可 能 存在 多 个 子 图 具有 相同 地 最 优 密度 (例如 几 个 不 相连 的 极 大 
BD: p" =ptV™ zs 11-1 描述 一 个 图 和 它 的 最 稠密 子 图 。 
密度 :1.4545454545454546 最 优 密度 :1.8 





p(G) 1.45 p(G|V*)=1.8 
a) b) 


图 11-1 a) 一 个 11 个 节点 地 图 : b) 它 的 最 稠密 子 图 ( 子 图 Gjv* 使 用 粗 线 绘制 ) 
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计算 最 稠密 子 图 对 图 分 析 来 说 是 非常 有 用 的 。 例 如 ， 对 社交 网 络 建 模 后 会 生成 一 
个 大 图 ， 通过 计算 其 最 稠密 子 图 ， 我 们 便 可 对 该 社交 网 络 进行 分 析 。 该 方法 同样 可 以 
用 于 解决 基于 图 的 社区 发 现 问题 或 者 高 效 地 图 压缩 问题 。 如 今 ， 基 于 数据 集 构建 地 网 
络 模型 无 处 不 在 ， 例 如， 电信 和 网、 科技 引文 网 络 、 协 同 合 作 网 络 、 蛋 白质 相互 作用 网 
络 、 大 众 媒体 信息 网 络 、 金 融 网 络 等 。 


11.1.2 最 稠密 子 图 的 复杂 度 和 一 个 简单 的 贪心 启发 式 算法 

在 理论 上 ， 我 们 可 以 使 用 数学 上 的 线性 规划 [U(LP) 方 法 在 多 项 式 时 间 内 解决 最 笛 
窗子 图 问题 。 然 而 ， 当 我 们 加 强 约束 条 件 使 得 |V | 一 & 时 ( 即 ， 限 制 子 图 的 基数 使 其 有 
且 只 有 上 个 顶点 )， 该 问题 便 (惊人 地 ) 转 换 成 了 一 个 NP 难 问题 。 

下 面 ,我 们 展示 一 个 能 够 保证 近似 因子 为 2 的 启发 式 算 法 ， 即 ， 我 们 提出 了 一 个 


算法 该 算法 能 够 返回 一 个 顶点 集 的 子 集 VV, WE oG Ste". RAZ, F 


图 Gjw 的 平均 度 在 最 坏 情况 下 不 会 小 于 最 稠密 子 图 G |v* 平均 度 的 50%。 这 个 最 新 的 
启发 式 算法 是 由 普林斯顿 大 学 (美国 ) 的 Charikar? 教授 在 2000 年 提出 的 ， 该 算法 采用 
和 迭代 的 方式 进行 工作 ， 如 下 所 述 : 
。 删除 度 最 小 的 节点 及 其 相连 的 边 ( 如 果 有 多 个 节点 符合 条 件 ， 则 任意 选择 一 个 节点 
即 可 )， 重 复 此 过 程 直到 所 有 的 节点 都 被 删除 (因此 ， 我 们 最 后 会 得 到 一 个 空 图 ) 。 
e 在 上 述 迁 代 过 程 中 ， 将 密度 最 大 为 o 的 子 图 保存 下 来 。 
图 11-2 和 11-3 展示 了 该 启发 式 算 法 在 一 个 简单 图 上 的 迭代 过 程 。 


密度 :1.4545454545454546 密度 :1.5 
. . 





选择 , p=1.45 移 除 , p=1.5 


密度 :1.5555555555555556 
. 





选择 , p=1.5 移 除 , p=1.56 
图 11-2 展示 了 Charikar 的 启发 式 算法 寻找 近似 比 为 2 的 最 稠密 子 图 的 过 程 : 算法 的 执 
行 过 程 为 从 左 到 右 ， 从 上 到 下 。 用 圆 图 包围 的 顶点 表示 该 顶点 在 下 一 个 阶段 中 
将 被 删除 。 接 图 11-3 


© http: //www. cs. princeton. edu/~moses/, 
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密度 : E 


选择 , p-1.56 移 除 , p=1.63 
a "x 1.7142857142857142 
选择 , p-1.63 移 除 , p=1.71 
图 11-2 ( 续 ) 


密度: 1.7142667142667142 


密度 :1 





R 


选择 ，p=1.71 a ; 移 除 ，p=1.67 iid 
MS be 
选择 ，p=1.67 — 移 除 ，p=1.8 — 
c 

选择 ，p=1.8 移 除 ，p=1.5 
密度 :1.5 密度 :1.0 
<> jet 

选择 ，p=1.5 移 除 ，p=1.0 


图 11-3 展示 了 Charikar 的 启发 式 算法 寻找 近似 比 为 2 的 最 稠密 子 图 的 过 程 :算法 
的 执行 过 程 为 从 左 到 右 ， 从 上 到 下 。 先 代 过 程 中 的 最 大 密度 p* — 1.8. 
用 国 转 包围 的 顶点 帮 示 该 顶点 在 下 一 个 阶段 中 将 被 删除 (最 小 度 ) 
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一 般 来 讲 ， 一 个 近似 比 为 a 的 最 稠密 子 图 是 一 个 子 图 G |v 且 有 p" >V"). 9 
在 我 们 证 明 这 个 简单 的 “选择 度 最 小 的 顶点 ， 删 除 ， 然 后 重复 此 过 程 直到 获得 一 个 空 
图 "启发 式 算法 能 够 保证 近似 比 为 2。 令 o* 一 pC(V* -EV | 表示 最 优 密度 ， 其 顶 


Charikar 启发 式 算法 的 伪 代 码 如 下 所 示 : 


Data: A non-oriented graph G = (V, E) 
S< V; 
S<V; 
while y 4 Ø do 
s < arg minses deg,(s); 
" + SM s): 


if p(S) > p(S) then 
| $3 
end 
end 
return § 





算法 6 Charikar 提出 的 贪心 启发 式 算 法 ， 该 算法 能 够 生成 图 C=(V, E) HR HET 
图 的 2 近似 图 


该 算法 称 为 贪心 算法 是 因为 它 会 在 每 次 迭代 中 使 用 局 部 决策 来 生成 近似 解 。 
首先 ， 我 们 注意 到 也 ,csdegs(s) 一 2| EC) | 一 2|S|o(S)。 下 面 我 们 证 明 最 大 密度 
0° <diaxs KEP Ona AURIS G 所 有 节点 中 最 大 的 度 。 在 EC(V* ) 中 ,最 多 有 |V" | ds 
条 边 ( 否 则 ，ds 就 不 是 所 有 节点 中 最 大 的 度 )。 因 此 我 们 能 够 推导 出 ECV* ) < 
|V* |dmox。 进 而 有 : 
x T Sb 
d wT 
现在 ， 我 们 考虑 算法 的 迭代 过 程 ， 即 每 次 移 除 一 个 顶点 ， 并 着 重 考虑 第 一 次 从 
V * 中 移 除 一 个 节点 时 的 情况 (在 移 除 时 我 们 并 不 知道 该 节点 是 否 属于 V* )。 那 么 V* 


中 每 个 节点 的 度 必须 至 少 等 于 p”。 否 则 ， 我 们 便 能 够 增加 密度 ph = py BER 





S dmx 





们 推断 EO >To" |V* | ， 且 顶点 集 S 构成 的 子 图 的 密度 为 ， 
v P ver 一 所 

因为 选择 的 是 迭代 过 程 中 密度 最 大 的 子 图 ， 所 以 我 们 得 出 结论 ， 该 启发 式 算法 能 
够 保证 近似 比 为 2。 

在 一 个 真实 的 RAM 计算 模型 上 ， 我 们 能 用 多 种 方式 实现 该 启发 式 算法 。 如 果 通 
过 直接 方法 实现 ， 则 算法 的 运行 时 间 为 二 次 方 复杂 度 ， 即 O(w?)。 这 对 于 大 图 来 说 是 
不 可 接受 的 。 为 了 减少 其 运行 时 间 ， 我 们 可 以 采用 堆 数据 结构 来 逐步 地 选择 顶点 。 堆 


pO = 
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是 一 个 抽象 数据 类 型 ， 通 常 使 用 完美 二 又 树 ( 即 ， 除 最 后 一 层 外 ， 基 他 层 都 是 满 节点 ) 
实现 ， 这 就 满足 了 存储 在 内 部 节点 上 的 键 大 于 或 等 于 存储 在 其 子 节 点 上 的 键 (参见 文献 
[2])。 通 过 在 删除 边 时 更 新 键 值 的 方式 ， 该 算法 的 总 运行 时 间 能 够 缩减 为 O((n 十 m) 
logz) 。 更 进一步 ， 通 过 采用 如 下 的 方式 ， 我 们 能 够 将 算法 的 运行 时 间 降 低 到 线性 时 间 
OC|\V|+|E|)=OGt+m): 我 们 将 顶点 存储 在 最 多 n 十 1 个 列表 中 ， 用 L; 表示 ， 且 每 
个 列表 L 只 包含 度 为 i 的 所 有 顶点 ，iE 10，…，72) 。 在 每 一 次 欠 代 过 程 中 ， 我 们 从 最 
小 的 非 空 列表 中 选择 一 个 顶点 *， 并 将 其 从 列表 中 删除 。 然 后 更 新 相 邻 的 节点 。 

定理 13( 串 行 的 DSG 贪心 启发 式 算法 ) ”在 线性 时 间 O(n 十 m) 内， 对 于 用 二 
IVI AY 4o m—|E| ibt X E G—(V, E), 我 么 可 以 计算 出 其 最 稠密 子 图 的 2 
近似 图 。 

乍 看 之 下 ， 我 们 可 能 会 觉得 Charikar 的 启发 式 算法 很 难 并 行 化 ， 因 为 该 算法 需要 
顺序 地 执行 n 次 迭代 。 下 面 将 展示 如 何 通 过 简单 地 修改 该 启发 式 算法 来 生成 一 个 直接 
高 效 的 并 行 算法 。 


11. 1.3 ”最 稠密 子 图 的 并 行 启发 式 算法 


4 €»0 表示 一 个 规定 的 实数 。 我 们 采用 如 下 的 方式 来 修改 之 前 的 串 行 贪心 启发 式 
算法 : 将 之 前 算法 的 选择 和 删除 度 最 小 顶点 步骤 替换 为 删除 所 有 人 度 小 于 20 76M 
图 的 平均 度 4 一 o(CV) 的 顶点 。 然 后 计算 剩余 图 的 密度 ， 不 断 重复 上 述 过 程 直 到 图 为 空 。 
该 并 行 算法 总 共有 两 个 阶段 ， 如 下 所 示 。 
。 阶段 1， 计 算 剩 余 边 数 、 顶 点 数 和 节点 度 ， 然 后 计算 平均 度 d. 
0 阶段 2， 从 当前 图 中 删除 所 有 度 小 于 2(1 十 6)a 的 节点 ， 然 后 跳 转 到 阶段 1 直到 
图 为 空 。 


Data: A graph G = (V, E) ande > 0 
S V; 
S «Vi 
while S 4 Ø do 
A(S) — (s e S | degs(s) € 2(1 + )p(S)}; 
S < S\A(S); 
if p(S) > p(S) then 
S<S 
end 
end 
return 5 
















算法 7 寻找 最 稠密 子 图 近似 解 S -的 并 行 贪心 启发 式 算法 


图 11-4 展示 了 将 该 并 行 贪心 启发 式 算 法 应 用 到 一 个 简单 图 上 的 执行 过 程 。 那 么 该 
并 行 启 发 式 算 法 的 性 能 如 何 呢 ? 

我 们 可 以 证 明 该 算法 能 够 确保 2(1 十 6@) 的 近似 比 ， 如 下 所 示 : +S 表示 当 我 们 第 一 
次 从 A(S) 中 选择 V”* 的 一 个 顶点 后 剩余 的 图 。 令 s— V" 门 A(S) 表 示 最 优 解 中 的 一 个 
顶点 。 因 此 ,我 们 有 pV” )<degy* GO. XAW V* CS, BL degv (s)<degs (5). 
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密度 :1.4545454545454546 密 魔 :1.4545454545454546 
+ . 
选择 , p=1.45 删除 ,p=1.45 
密度 :1.5 密度 :1.5 
选择 , p=18 删除 , p=1.8 
密度 :1.0 密度 :1.0 


<\ 


选择 ， p-l 删除 ， p-l 


IN 


图 11-4 并 行 (贪心 ) 启 发 式 算法 执行 过 程 : 我 们 同时 删除 所 有 度 小 于 (1 十 ec)d 的 顶点 ， 其 
中 e>0 是 一 个 规定 的 值 ，4d=2(G) 表 示 当 前 图 G 的 平均 度 。 用 图 图 包围 的 项 点 表 
示 该 顶点 在 下 一 个 阶段 中 将 被 删除 


而 s 属 于 A(S)， 所 以 我 们 有 degs (s) 达 (2 十 2 Eyp(S)。 因 此 ， 由 传递 性 可 以 推导 出 : 


pC(V*) 
pn mv le 


因为 是 从 所 有 和 迭代 中 选择 最 好 的 密度 ， 所 以 有 p(S) — maxs D>, 4 y= 
2e,， 对 YY>0， 都 有 (2 十 7) 近 似 比 。 
现在 ， 分 析 一 下 该 算法 迭代 次 数 的 复杂 性 。 我 们 有 ， 
2| ECSX.] = k3 degs (s) + > degs (s) 


sE A(S) s€S\ {ACS)} 


只 考虑 该 公式 中 的 第 二 个 和 式 则 有 
2| ECS) |> 20 +6)(|S|— | ACS) | CS) 
因为 p(S)=|ECS)|/|S|, 所 以 可 以 推导 出 


一 = 
IAS) |> fls] 





1 
[SMAO |< 73415! 


由 此 可 以 总 结 出 ， 通 过 在 每 次 迭代 过 程 中 删除 部 分 项 点， 我 们 最 多 需要 O(logi +en) 
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次 迭代 ( 即 并 行 步骤 ) 就 可 以 完成 该 算法 。 

定理 14(DSG 贪心 并 行 启发 式 算法 ) ”对 任意 ce>0， 该 贪心 并 行 启发 式 算 法 能 够 保 
证 在 OClog; en KIRKE, REF 2 十 E 的 近似 解 。 

下 面 将 展示 该 启发 式 算 法 的 一 个 基于 MapReduce 框架 的 并 行 实现 。 我 们 需要 用 如 
下 的 方法 实现 该 算法 的 三 个 步 又 。 

(1) 计 算 密度 o: 该 步 又 很 简单 ， 因 为 我 们 只 需要 在 给 定 的 阶段 中 ， 计 算出 总 边 数 
和 总 节点 数 即 可 。 回 想 一 下 ， 数 据 是 以 (key; value) 对 的 形式 存储 在 MapReduce 中 
89. lik, Fe Aa “node”; “12) 表 示 一 个 节点 并 且 用 该 节点 id 作为 键 ， 同 样 用 
(“edge”;“1”) 表 示 一 条 边 且 用 该 边 的 id 作为 键 。 然 后 将 数据 根据 不 同 的 中 间 键 
(“node” 或 者 “edge”) 分 组 ， 并 计算 每 组 的 累加 和 。 

(2) 计 算 每 个 节点 的 度 : RIKERA CU, v) 存储 为 两 个 (key; value) 对 一 一 
Cu; VFC; u)。 因 此 ， 归 约 操作 首先 在 (u; vi ，wvs。，…，vs) 上 计算 累加 和 ， 然 后 将 
结果 存储 在 (u，deg(u) ) 对 中 。 

(3) 删 除 度 小 于 给 定 阅 值 的 节点 及 其 相连 的 边 : 我 们 需要 调用 两 次 MapReduce 来 
完成 该 操作 。 在 第 一 阶段 ,我 们 将 需要 删除 的 节点 v 用 (v; $8) 标记。 并 将 每 条 边 
Cus v) GRE Cus zw) 相 关联 。 归 约 操作 会 收集 与 相连 的 每 条 边 及 其 符号 $ (如 果 该 
节点 是 被 标记 的 )。 当 该 节点 属于 被 标记 节点 时 ， 归 约 操 作 返 回 空 ， 否则 归 约 操作 会 复 
制 它 的 输入 数据 。 然 后 在 第 二 阶段 ， 将 每 条 边 (w，w) 与 键 值 对 (v; w) 相 关联 并 重复 上 
Wate. Ak. Active MapReduce 后 ， 只 有 那些 两 个 顶点 都 没有 被 标记 的 边 才 能 保 
留 下 来 。 

-在 实际 中 通过 实验 观察 到 ， 即 使 对 于 一 个 有 十 亿 节 点 的 大 图 ， 该 算法 依然 能 在 一 
打 和 迭代 内 找到 最 稠密 子 图 的 近似 解 Clw。 该 算法 非常 有 用 ， 因 为 它 允 许 我 们 通过 在 剩 
余 的 图 G = 二 G/G|w 上 递归 地 调用 启发 式 算法 来 将 一 个 图 分 割 为 密集 子 图 。 因 此 ， 这 个 
启发 式 算法 可 以 用 来 在 大 图 上 进行 社区 发 现 。 


11.2 判断 ( 子 ) 图 同 构 


&G -(Vi, Ej), G; —((O5, E; ) 表 示 两 个 图 ， 且 每 个 图 有 fpe | V; | 48 A Tn; 一 
| 五 ;| 条 边 。 我 们 认为 两 个 图 是 和 否 一 致 主要 是 由 图 顶点 标号 的 某 个 排列 = 决定 的 : 这 个 
问题 被 称 为 图 同 构 (Graph Isomorphism，G 了 DD) 检测 问题 。 当 然 ， 一 个 必要 的 条 件 是 ni = 
n;—n Em =m =m, WERA wi” 和 vw” 分 别 表示 Vi 和 Vi 的 顶点 。 图 11-5 展示 
了 一 些 同 构 的 图 。 这 些 图 被 绘制 在 平面 上 ， 即 它们 的 组 合 结构 能 入 在 平面 中 ， 这 是 当 
前 绘图 领域 的 艺术 : 完美 绘图 ! 

这 个 图 同 构 问题 属于 NP 类 问题 ， 但 是 它 的 复杂 度 还 没有 (完全 ) 解 决 。2015 年 11 
A. Laszlo Babai 教授 (世界 著名 的 复杂 性 理论 专家 ) 在 该 问题 上 获得 了 重大 突破 ， 他 
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提出 了 一 个 时 间 复 杂 度 为 20(logn)'(c 为 某 个 常数 ) 的 拟 多 项 式 算法 。 





图 11-5 图 同 构 (GD: 没有 标号 的 图 (上 ) 及 其 相应 的 有 标号 的 图 (下 ) 


实际 上 ， 当 给 定 一 个 置换 o 时， 我 们 可 以 很 容易 地 在 OC(m) 时 间 内 判断 这 些 图 是 否 
同 构 。 我 们 用 G, 2G, 表示 两 个 图 全 等 。 对 所 有 的 iE {1，…，n)， 将 置换 og 与 节点 
vi? 和 2) 关联。 我们 观察 到 置换 是 由 一 些 依赖 于 子 图 对 称 性 的 子 置 换 所 定义 的 。 
例如 ， 对 于 完全 子 图 ( 团 ) ， 可 以 等 价 地 选择 任意 置换 。 事 实 上 确实 如 此 ,我们 可 以 检 
验 一 个 有 个 节点 的 完全 图 K, 与 其 节点 的 任意 一 个 置换 都 是 等 价 的 : K,-K; Vo. 

该 问题 的 最 大 难点 在 于 我 们 可 能 需要 处 理 n! 个 置换 ( 见 图 11-5)。 早 在 20 世纪 50 
年 代 ， 化 学 领域 的 科学 家 们 为 了 判断 一 个 分 子 ( 以 图 的 形式 表示 ) 是 否 已 经 被 录入 了 数 
据 库 而 深入 地 研究 了 该 问题 。 换 言 之 ， 就 是 为 了 判断 一 个 分 子 的 图 是 否 与 分 子 图 数据 
库 中 的 某 个 图 同 构 。 

另 一 方面 ， 判 断 是 否 存 在 G 的 一 个 子 图 G 1， 使 得 G1 SG, 同 构 的 问题 已 经 被 证 
明 是 一 个 NP 完全 问题 。 子 图 GESEG 是 由 顶点 集 V, WFRV’, mM, AV, 使 得 
G, 的 边 集 为 Ei 二 Ei 站 (Vi XV OCHR uL vo RT V^, 时 我 们 保留 边 (x，v) ) 。 

给 定 一 个 图 G 二 (V,，E), 且 |V|==n，|E| 二 xm, 我们 可 以 以 组 合 的 方式 用 一 个 二 元 
和 矩阵 来 代表 该 图 ， 称 之 为 邻接 矩阵 ， 且 满足 当 且 仅 当 M;j; 二 1 时 ， 边 (v;，w;)EE， 否 则 
Mi 一 0。 对 于 无 向 图 来 说 ， 其 邻接 矩阵 M 是 对 称 地 ， 有 且 仅 有 2m 个 元 素 为 1。 当 我 们 
需要 判断 两 个 图 G 和 Gs 的 同 构 性 时 ， 可 以 考虑 使 用 其 相应 的 邻接 矩阵 M 和 M, 来 完成 ， 
通过 判断 是 否 存在 邻接 矩阵 索引 的 一 个 排列 rc， 使 得 G —G? H GP —((O;. 05). 


11.2.1 枚 举 算 法 的 一 般 原 则 


大 多 数 已 经 被 确信 能 够 检测 图 同 构 的 算法 都 有 相似 的 执行 步 又， 如 下 所 述 : 
。 和 迭代 地 增加 顶点 的 部 分 匹配 数 。 
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。 根据 某 些 条 件 ( 例 如 有 具有 相同 的 度 ) 来 选择 相关 的 顶点 对 。 

© 删除 那些 不 能 生成 完全 顶点 匹配 的 路 径 ( 前 枝 )。 

e 当 我 们 到 达 一 条 死路 时 ， 删 除 上 一 个 假设 ， 然 后 回溯 。 

e 当 算 法 发 现 了 一 个 解 (给 出 一 种 置换 o) 或 者 所 有 路 径 都 已 经 被 搜索 了 而 没有 产生 

一 个 解 时 ， 算 法 停止 。 

这 个 简单 通用 算法 的 时 间 复 杂 度 在 最 坏 情 况 时 是 O(z!)， 这 是 一 个 超 指数 2 复杂 
BE! 该 算法 同样 可 以 用 来 检验 子 图 同 构 性 。 

注意 ， 一 些 问题 从 本 质 上 来 说 就 需要 指数 时 间 来 完成 ， 例 如 汉 诺 塔 。 然 而 ， 图 同 
构 问 题 直 到 现在 还 不 清楚 是 否 能 在 多 项 式 时 间 内 解决 ( 见 图 11-6). 


加 区 区 








图 11-6 同 构图 的 示例 : 通过 为 节点 选择 任意 的 坐标 Cz，y)， 我 们 可 以 画 出 图 的 不 同 的 组 
合 结构 。 上 部 (n= 二 8 个 节点 ): a) 原 图 ; b) 同 样 的 图 只 是 顶点 选择 了 不 同 的 ( 工 ，y) 
坐标 ，c) 对 顶点 标号 置换 后 的 图 。 我 们 很 难 直 接 比 较 a) 一 c)。 置 换 为 c 一 (1，4， 
6; 0, 3. 7, 5, 2): 这 证 明了 a) 与 c) 是 同 构 的 。 下 部 : n—15 个 节点 时 的 示例 


11.2.2 Ullman 算法 : 检测 子 图 同 构 性 
Ullman 算法 是 最 早 的 检测 子 图 同 构 性 算法 (1976) 之 一 。 该 算法 基于 邻接 矩阵 。 首 


© SME, RMA logn! = 二 O(n log n). 
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先 ， 我 们 介绍 一 下 置换 答 阵 的 概念 ， 置 换 矩 阵 是 一 个 方 阵 ， 每 个 元 素 的 值 为 二 元 值 且 
每 一 行 和 每 一 列 中 只 有 一 个 元 素 为 1。 如 下 所 示 : 

1 0 0'0 
0 1 0 
0 0 1 
1 9 Q 
ixdb—- ERE. RES. ，…，n) 的 置换 是 一 一 对 应 的 关系 。 置 换 矩 阵 P。 
与 c 的 对 应 关系 为 : 


0 
P = 
0 
0 


Il, i=o(j) 
(du = Yo, 其 他 
此 外 ， 因 为 我 们 有 PoP, = Pate, ， 其 中 ci cs 为 置换 ol Mo 的 复合 操作 ， 所 以 置 
换 矩 阵 的 集合 构成 了 一 个 群 组 。 置 换 矩 阵 的 一 个 重要 性 质 是 ， 两 个 图 G! 和 Gs 是 同 构 
的 当 且 仅 当 它们 的 邻接 矩阵 M 和 M, 符合 下 列 恒等式 : 
M, = PXM, XP" arp 
其 中 ，P 为 矩阵 己 的 转 置 ，P 为 一 个 给 定 的 置换 矩阵 。 这 个 恒等式 等 价 于 
M, P= PM, . 
这 样 ， 我们 就 可 以 枚 举 所 有 的 置换 矩阵 2 ， 然 后 判断 其 中 是 否 存在 至 少 一 个 矩阵 
使 得 恒等式 (11. 1) 成 立 。 
Ullman 算法 5 采用 了 深度 优先 的 搜索 方法 实现 了 这 一 过 程 。 如 果 利 用 该 算法 判断 
规模 为 n 的 图 的 同 构 性 时 ， 其 复杂 度 为 O(z"z2 )。 在 实际 中 ， 由 于 剪 枝 和 回溯 技术 的 
应 用 ,我 们 可 以 检测 有 几 百 个 节点 的 图 的 同 构 性 。 


11.2.3 枚 举 算法 并 行 化 


当 利用 尸 个 处 理 器 并 行 执行 时 ， 在 最 好 情况 下 ， 可 以 将 串 行 执行 时 间 减 少 到 原来 
的 1/P。 我 们 可 以 采用 一 种 很 直接 的 方式 将 该 算法 并 行 化 ， 即 将 顶点 oP 和 它 的 所 有 
顶点 vi? 分 配给 处 理 器 P;， 其 中 j€ {1，…，P= 二 n}。 这 样 并 行 算法 的 时 间 复杂 度 就 
变 为 Olw"n?*/P)。 即 当 P—n 时， 复杂 度 为 Olr"n)。 当 然 ， 在 实际 中 ， 只 有 当 vt? 与 
wv 有 相同 的 度 时 ， 我 们 才 将 其 关联 在 一 起 。 按 照 这 种 方法 ， 有 些 处 理 器 可 能 会 没有 
任务 可 做 ( 当 我 们 处 理 的 图 不 是 自我 对 称 的 完全 图 时 )。 因 此 ， 我 们 选择 主 从 结构 来 实 
现 该 算法 ， 选 择 一 个 处 理 器 作为 专门 的 主 处 理 器 ， 剩 余 的 P 一 1 个 处 理 器 作为 从 处 理 
器 。 主 处 理 器 通过 向 从 处 理 器 发 送 消息 来 传递 指令 。 当 从 处 理 器 完成 它 的 计算 任务 时 ， 
搜索 到 一 个 不 完全 置换 或 者 发 现 了 一 个 完全 置换 (与 图 匹配 ) ， 会 将 计算 结果 发 送 给 主 
处 理 器 。 主 处 理 器 需要 为 P 一 1 个 从 处 理 器 实现 一 个 负载 均衡 程序 。 





O ”从 本 质 上 来 说 ， 这 个 问题 与 在 xXz 的 棋盘 上 安全 地 放置 za 个 皇后 的 问题 类 似 。 参 见 文献 [2] 。 
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一 般 来 说 ， 多 数 图 同 构 算法 都 是 相似 的 ; 为 了 在 实际 中 获得 一 个 良好 的 加 速 比 ， 
这 些 算 法 需要 在 多 个 处 理 器 中 实现 负载 均衡 。 这 是 任务 调度 问题 。 


11.3 注释 和 参考 


Moses Charikar[L1j] 提 出 了 贪心 启发 式 算法 来 寻找 最 稠密 子 图 的 近似 解 。 本 章 描 述 
的 并 行 算法 可 以 用 MapReduce 框架 实现 。 检 验 有 个 节点 的 图 的 同 构 性 可 以 在 
20 Wem 时间 内 完成 ， 详 细 内 容 请 参见 文献 [4]。 在 撰写 本 书 时 ，Ldszl6 Babai? $82 
(世界 知名 的 复杂 性 理论 专家 ) 提 出 了 一 个 基于 成 熟 的 群 理论 的 拟 多 项 式 算 法 ,该 算法 
的 时 间 复 杂 度 为 20(logn)“， 其 中 c 为 某 个 常数 (注意 当 c= 二 1 时 ， 该 表达 式 变 为 多 项 式 
复杂 度 )。 这 是 理论 计算 机 科学 (Theoretical Computer Science, TCS) 领域 近 30 多 年 
来 的 一 个 重大 成 就 。 对 于 平面 图 (图 髋 入 在 平面 内 ,确保 边 两 两 不 相交 )， 我们 可 以 在 
线性 时 间 内 检测 出 图 的 同 构 性 。 树 结构 的 图 也 属于 平面 图 。 基 于 邻接 矩阵 (1976 ) 的 
Ullman 算法 喇 是 一 个 高 效 的 方法 。 一 个 更 高 效 的 算法 ( 称 为 VF2 算法 ) 采 用 了 C++ 
的 Boost9 库 实现 。 对 这 五 个 图 同 构 检测 算法 的 对 比 实验 可 以 在 文献 [6] 中 找到 。 该 方 
法 的 串 行 与 并 行 贪心 启发 式 的 实现 可 以 在 网 站 http://processing. org 的 书 附录 网 页 
找到 。 


11.4 总结 


,利用 图 可 以 方便 地 对 数据 中 的 结构 进行 建 模 ， 数 据 之 间 的 关系 便 构成 了 图 中 的 边 。 
如 今 ， 当 我 们 进行 社交 网 络 分 析 时 ， 经 常 需要 用 到 大 图 数据 集 (facebook、twitter 等 )， 
在 数据 科学 领域 ， 高 效 地 分 析 海 量 图 已 经 成 为 了 趋势 。 在 本 章 中 ,我 们 描述 了 一 个 贪 
心 启发 式 算法 ， 该 算法 能 够 找到 最 稠密 子 图 的 近似 解 。 最 稠密 子 图 可 以 代表 社区 。 我 
们 展示 了 如 何 将 Charikar 的 启发 式 算 法 转换 成 高 效 的 并 行 算法 。 接 着 介绍 了 在 检测 两 
个 图 是 否 相同 时 所 面临 的 基本 问题 ， 由 它们 的 节点 的 重新 标号 所 决定 。 该 问题 称 为 图 
同 构 问 题 。 尽 管 我 们 能 够 很 容易 地 判断 出 一 个 给 定 的 置换 是 否 会 生成 一 个 同 构图 ， 但 
是 这 个 基本 问题 的 复杂 性 到 现在 为 止 还 不 得 而 知 。 我 们 展示 了 一 个 简单 的 枚 举 算法 ， 
该 算法 使 用 了 前 枝 技术 和 回溯 机 制 ， 同 时 也 展示 了 如 何 将 该 算法 并 行 化 。 但 是 该 并 行 
算法 同时 也 突出 了 其 负载 均衡 的 问题 ， 即 如 何 分 割 配置 空间 以 便 处 理 器 能 够 获得 一 个 
良好 的 并 行 时 间 。 

寻找 最 稠密 子 图 近似 解 的 代码 

图 11-7 展示 了 processing. org 程 序 的 一 个 快照 。 


©  http://people. cs. uchicago. edu/ 一 Iaciv/ 。 
© http://www. boost. org/ 。 
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WWW source code: SequentialDenseSubgraph.pde 





| WW source code: ParallelDenseSubgraph.pde | 





; 6 最 优 密度 : 1.8 





图 11-7 processing 程序 执行 快照 ， 用 来 贪心 地 寻找 最 稠密 子 图 的 近似 解 


11.5 练习 


练习 1( 一 个 加 权 图 的 最 稠密 子 图 ) 令 G 二 (V，EE，w) 表 示 一 个 图 ， 其 边 的 权重 由 正 函 数 wl) 
确定 。 请 将 Charikar 启发 式 算法 "" 泛 化 以 便 其 能 够 找到 最 稠密 子 图 的 近似 解 。 

练习 2C 最 稠密 子 图 的 快速 实现 ) 通过 维护 顶点 列表 ， 每 个 列表 都 根据 顶点 的 度 排序 ， 如 何 实 
现 一 个 线性 时 间 为 OC n+ m) 的 Charikar 启发 式 算 法 "”。 并 且 描 述 一 下 如 何 利用 Fibonacci 堆 在 该 算法 
的 每 次 迭代 中 快速 地 找到 最 小 度 的 顶点 。 

练习 3( 并 行 化 最 稠密 子 图 的 近似 解 ) ”利用 MPI 设计 一 个 并 行 算法 ， 该 算法 在 每 一 个 阶段 要 删除 
一 个 顶点 集 的 子 集 。 使 用 并 行 Charikar 启发 式 算 法 "和 分 布 式 内 存 架构 (MPIT) 实 现 你 的 设计 。 你 的 实 
现 带 来 的 加 速 比 是 多 少 ? 
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注 : 用 时 3 小 时 。 
以 下 四 个 习题 是 相互 独立 的 。 完 成 单个 习题 所 需 的 时 间 如 下 表 所 示 : 





习题 % 难度 预 估 时 间 ( 分 钟 ) 
1 10 低 30 
2 20 普通 30 
3 30 普通 45 


4 40 高 60 


习题 1( 加 速 比 和 Amdahl 定律 ) 令 PP 表示 一 个 串 行 程序 ， 其 中 75% 的 代码 可 以 并 
行 化 : 

A. 计算 当 己 =3 个 处 理 器 和 P—4 个 处 理 器 时 的 加 速 比 。 

2. 阐述 当 P-~ 十 ce 时 ， 渐 近 加 速 比 和 效率 是 多 少 。 

现在 ， 考 虑 以 下 串 行程 序 P 二 Pl; P;， 该 串 行程 序 包 括 两 个 连续 执行 ( 串 行 代码 ) 
的 过 程 P; 和 P，。 假 设 第 一 个 过 程 中 有 50% 的 代码 可 以 被 并 行 化 且 该 过 程 的 串 行 执 行 
时 间 为 ,第 二 个 过 程 中 有 75% 的 代码 可 以 被 并 行 化 且 串 行 执行 时 间 为 t20 。 此 外 ， 第 
二 个 过 程 的 串 行 时 间 永 远 是 第 一 个 过 程 的 两 倍 : 即 刀 二 22 。 

3. 计算 当 使 用 己 个 处 理 器 时 加 速 比 是 多 少 。 

4. 推导 出 当 P->~coe 时 ， 渐 近 加 速 比 是 多 少 。 

现在 我 们 考虑 一 个 并 行 算法 ， 当 该 算法 的 输入 数据 规模 为 n 并 行 度 为 P 时 ， 其 并 


行 执行 时 间 的 复杂 度 为 0 ( 秽 )。 在 本 文 剩余 部 分 ， 我 们 假设 数据 集 存储 在 每 个 处 理 


器 的 本 地 内 存 中 。 在 实际 中 ， 一 个 集群 仅 有 Po。<<P 个 物理 机 器 来 运行 并 行 度 为 P 的 并 
行程 序 (mpirun - np P program)(P Æ P, 的 整数 倍 : P mod P,—0), 

9. 通过 在 拥有 Pu 个 机 器 的 物理 集群 上 模拟 一 个 拥有 P 个 机 器 的 虚拟 集群 ( 即 ， 将 
一 些 进程 通过 时 分 的 方式 映射 到 同一 个 处 理 器 上 )， 计 算 在 拥有 Pu 个 机 器 的 物理 集群 
上 用 PP 个 进程 运行 该 算法 的 时 间 复 杂 度 。 


答案 1( 加 速 比 和 Amdahl 定律 ) 


1. 首先 ,我 们 应 用 Amdahl 定律 SCP) = Haa 71—a, 7l. AY 


得 到 S(3) —2 和 sa) - Da. 29, 


2. 渐 近 加 速 比 是 SC 一- 一 4， 且 渐 近 效率 是 0。 
3. api iren iis a a 











占 比例 ; a, 一 对 Aer n 2, 因此， 我 们 有 aus 二 1 一 a1 一 地， 通过 应 用 Amdahl 
z T = 1 _ 3 
定律 可 以 得 到 SO +>- 35 
3 3P 
P 























P 
Qi 加 一 3 _ rl 2 
" (p =g m ay —4 = oy = 8 
E ty xao ts = 2t1 t = 3t; 


4. 当 P->~ce 时 ， 渐 近 加 速 比 是 3。 


5. 采用 时 分 的 模式 ， 将 声 - 个 逻辑 进程 映射 到 每 一 个 物理 处 理 器 上 。 则 并 行 复杂 
190, (E-o (94). 
习题 2( 采 用 MPI 并 行 的 方式 对 正 态 分 布 进行 统计 推断 ) 令 X= ns 2,)CR 
表示 由 相互 独立 同 分 布 的 高 斯 随机 变量 构成 的 一 个 大 数据 集 
No ) zi $t, N(ps0") 
回想 一 下 ， 对 于 均值 和 方差 的 无 偏 最 大 似 然 估计 (MLE) 分 别 是 : 


Sz; (A. 1) 


dl 
n 
BÍ Dy a - Ay)? (A. 2) 


n 








1. 证 明 A, Ao? 能 够 通过 以 下 三 个 量 来 计算 : nS, = >)z MS, = 9^. 写 出 
AEX EX 


A, AG. Hin. S, I S, 表示 的 公式 (不 使 用 其 他 任何 变量 )。 

2. 假设 在 拥有 p 个 机 器 的 分 布 式 集群 中 ， 有 一 台 计 算 机 ( 根 机 器 ) 能 够 将 数据 集 X 
完全 地 存储 在 其 本 地 内 存 中 。 结 合理 想 的 MPI 语句 scatter() 和 reduce()， 使 用 
伪 代 码 编 写 一 个 并 行 算法 ,使 其 能 够 完成 以 下 任务 : 

。 公平 地 在 所 有 处 理 器 上 共享 数据 。 

e 以 分 布 式 的 方式 ， 在 数据 集 X LHR, Ho. 
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答案 2( 采 用 MPI 并 行 的 方式 对 正 态 分 布 进行 统计 推断 ) 
l. 令 S, = Pura S, mc Sau. 我 们 有 : 








in i<n 
^ Sı 
Hn— Fr 
dix —1» (x —4,2* = 一 s, + nf? — 22, 2x;) 
i<n n in 
si S 
S, - 2. —2 218, S, + +(S} — 28D) ; s 
CU mel wei T A -2) 


2. 下 列 伪 代 码 是 并 行 统计 推断 正确 代码 的 一 个 示例 : 


p = number of processes; 
r = rank of the current process; 
master= rank of the root process; 
chunksize — n/p; 
lastchunksize — n mod p; 
if lastchunksize = 0 then 
| chunksize + chunksize + l; 
end 
m = p x chunksize; 
resize X to have m vectors; 
pad with zero vectors the last m — n vectors of X; 
let Y, be an array of chunksize vectors; 
scatter(X, Y, master); 
if r = p — | then 
| chunksize — lastchunksize; 
end 
slaveS1 = 0; 
slaves2 = 0; 
for i < chunksize do 
slaveS1 < slaveS1 + Y,[i]; 
slaveS2 + slaveS2+ Y2[i]; 
end 
reduce(slaveS1, Sı, master, MPI SUM); 
reduce(slaveS2, S2, master, MPI SUM); 
if r — master then 
fin = S1/n; 
Gn = (S2 — SẸ /n)/(n — 1); 
end 





2] 3038 3177 4 25 3 E 85 BA fo i 48 0 ER 23 Er. MTU FH F PU PRÉC 

布尔 运算 符 AND, OR, XOR, NOT. 

e bin: 将 一 个 整数 映射 成 它 的 二 进 制 码 。 

* Gray: 将 一 个 整数 映射 成 与 它 相关 的 格雷 码 。 

e 2'，2 的 i 次 方 。 

e dec: 将 一 个 二 进 制 的 向 量 映射 成 相应 的 整数 。 

e leftmost: 返回 一 个 向 量 中 最 左边 的 元 素 ,， 例如 ，leftmost(zx4， Xs， £g» 
£1) =Z] o 


。 significant(g&)， 该 函数 对 任意 的 gz50 成 立 : 给 出 二 进 制 向 量 g= (gy_1，…， 
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so) 中 最 左边 非 零 元 素 的 索引 1i。 例 如 ， 对 于 g—(00. 1, 0. DMd=4, RNA 
significant((0, 1, 0, 1))=d—2=2, 
rightfill: 将 一 个 二 进 制 向 量 中 “右边 ”( 右 边 定 义 为 从 右边 开始 直到 遇 到 第 
一 个 1) 的 零 变 为 1。 HM, rightfill((OO, 1, 0, 0))=(0, 1, 1, 1). 
. 给 出 一 个 不 规则 拓扑 的 例子 和 一 个 有 4 个 顶点 度 为 3 的 规则 拓扑 的 例子 。 超 立 
方 体 拓扑 是 规则 的 吗 ? 一 个 超 立 方 体 有 多 少 个 相 邻 节点 ? 
2. 给 出 两 个 度 为 3 的 规则 拓扑 例子 : 一 个 例子 有 12 个 顶点， 另 一 个 有 16 个 顶点 。 
将 你 的 结论 一 般 化 ， 并 将 其 应 用 到 一 类 度 为 3 顶点 数 为 4k(k 宇 3) 的 规则 拓扑 上 。 
3. 计算 节点 (0，1，0，1)。 和 节点 (1 1, 1, O, 之 间 的 汉 明 距离 。 
4. 在 用 格雷 码 标记 的 超 立 方 体 拓扑 中 ， 与 节点 (0，1，1，0)。 相 邻 的 节点 有 哪些 ? 
将 上 述 过 程 一 般 化 ， 给 定 一 个 用 格雷 码 标记 的 节点 g 王 (ga-1，…，8go)， 构造 一 个 函 
数 neighbor;: (0，1)“->({0，1)“ ， 来 标记 该 节点 的 第 ;个 邻居 ，iE10，…，d 一 1)。 
5. 画 一 个 2 维 正 方形 ， 然 后 用 格雷 码 标记 其 顶点 。 现 在 考虑 一 个 函数 f/， 该 函数 
将 一 个 二 进 制 向 量 与 一 个 以 整数 为 边界 的 区 间 相 关联 ， 如 下 所 示 : 
(0,0) — [0.3] 
(0,1) — [1.1] 
(1,0) > [2,3] 
(1,1) + [3,3] 
现在 考虑 一 个 3 维 立 方 体 (d 二 3)， 然 后 用 格雷 码 标记 其 顶点 。 考 虑 当 d= 二 3 时 下 列 
关于 函数 f 的 扩展 : 


m 


(0,0,0) > [0,7] 
(0,0,1) — [1.1] 
(0.1,0) — [2.3] 
(0,1,1) — [3,3] 
(1,0,0) + [4,7] 
en -e [5,81 
(1,1,0) — [6,7] 
(1,1,1) — [7,7] 

将 函数 了 一 般 化 ， 使 其 能 够 应 用 到 d 维 的 任意 超 立 方 体 上 。 即 构造 一 个 关于 d 的 
函数 ， 该 函数 将 一 个 二 进 制 向 量 {10，1}? 与 适当 的 区 间 相 关联 ， 且 该 函数 要 与 上 述 的 2 
维和 3 维 的 例子 相符 合 。 注 意 ， 该 问题 有 多 个 答案 。 

6. 假设 在 一 个 拥有 2^ 个 节点 的 a 维 超 立方 体 拓扑 中 ， 根 进程 中 存储 了 整个 数组 
rT 二 (xz0，*…，Xp_1)， 其 中 p= 二 2*。 为 该 超 立 方 体 拓扑 ( 根 节 点 标记 为 0) 设 计 一 个 
scatter 算法 (也 称 为 个 性 化 扩散 (personalized diffusion))， 使 得 第 i 个 进程 接收 到 元 
素 zi 。 你 可 以 使 用 之 前 定义 的 函数 fo 
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答案 3 

1. 一 个 有 4 个 顶点 的 完全 图 ( 团 ) 是 一 个 节点 度 为 3 的 规则 图 。 一 个 完全 二 又 树 有 
一 个 不 规则 的 拓扑 结构 : 它 的 根 和 内 部 节点 的 度 为 2 而 它 的 叶 节点 的 度 为 1。d 维 的 超 
立方 体 有 一 个 规则 的 拓扑 结构 ， 其 顶点 的 度 为 did 个 邻居 /节点 ) 。 

2. 考虑 由 上 个 星 形 图 9 构造 的 flower snark 图 J,: 

((O;, Azs Bis C;), ((€O;, AJ, {0:5 Bz}, {Os CGIN 

对 于 所 有 的 ik. ARS fel ERBUXRYESEO.. ，…，O， 用 男 一 个 简单 的 环 连接 
Ai，…，A， 用 第 三 个 环 ( 是 其 他 环 长 度 的 2 倍 ) 连 接 B; es Bes Cis s Cpo M 
J, 构成 的 一 类 图 全 是 度 为 3 的 规则 图 。Js 有 12 个 顶点 (3 个 4 顶点 的 星 形 图 )，J, 有 
16 个 顶点 (4 个 4 顶点 的 星 形 图 )。J 有 4n 个 度 为 3 的 顶点 ， 总 边 数 为 67。 


Flower snark J, ( 度 为 3 的 规则 拓扑 ) 


3. 汉 明 距离 是 两 个 二 进 制 向 量 中 不 同 元 素 的 个 数 。 例 如 ， 我 们 有 distu, 1. 
0, 1), Cl, 1, 1, 0)—3, 

4. 当 用 格雷 码 标记 超 立 方 体 的 顶点 时 ， 所 有 的 相 邻 顶点 对 ( 即 边 ) 的 汉 明 距离 是 1。 
因此 ，(0，1，1，0) 的 四 个 相 邻 顶点 是 (0，1，1，1)，(0，1，0，0)， (0, 0, 1, 0), 
(1，1，1，0)。 当 g=(gu-1，…，8go) 是 一 个 用 格雷 码 标记 的 顶点 时 ， 计 算 公 式 为 : 

ViEl(0…d 一 1)neighbor'(g) = g XOR bin(2') 

5. 对 所 有 的 二 进 制 向 量 r+， 公 式 为 : 

[dec(r) , decCrightfillCz)) ] 
另 一 个 正确 的 公式 利用 了 insignificant O 函数 提供 的 最 低 有 效 位 ; 
[dec(r) ,dec(r) 十 2insienificamco — 1] 

6. 此 处 展示 了 在 超 立 方 体 上 scatter 通信 过 程 的 伪 代 码 实现 。 数 据 x 存储 在 进程 

b 的 局 部 变量 v 中 。 


© https://en. wikipedia. org/wiki/Flower snark, 
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i 
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Data: The master node is 0 
Result: scatter(d.x.v) 
p — world.rank(); 
g = Gray(p): 
if p #0 then 
// g receives data y from neighbor 
i = siganificant( qu): 
receive(neighbor, (9). Y): 
// v contains a local copy of x, 
v «— leftmost( v): 


for 7 € (neighbor, ;(g) | 1 € j < i) do 
// send correct chunk of data to neighbor 
send( 7, (x; | dec(7) < j < decírightfill(7)) ) ); 

end 





男 一 个 伪 代 码 实现 是 


Data: the master node is 0 
Result: scatter(d, x, v) 
for i € (d.d — | 
if p mod 2/ — 0 then 
T «— p 2/7 


send( 7, (x; | dec(7) < j < dec(rightfill(7)) ) ); 


else if p mod 2! = 2/7! then 
pep- 
receive( @, (x; | dec(@) < j < dec(rightfill()) ) ); 
V *— X deci): 
end 
end 





习题 4( 质 心 、 方 差 和 中心 点 聚 类 ) 对 于 一 个 有 限 点 集 ZR! 
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def 


3) ous 表示 Z 的 质心 ， 其 中 |Z| 表 示 集 合 Z 的 基数 。 对 任意 两 个 RR* 中 的 向 量 


wig gi? ) 和 y= Cy? " » PLU 


， 我 们 定义 其 标量 积 为 工 。y 


Many? ,平方 欧 几 里 得 范 数 | x 上 ?一 z。z， 由 此 可 以 推导 出 平方 欧 几 里 得 距离 为 


def 
| e—31* — €—3 1 G3 = el Doll? 


YC R" 为 两 个 非 空子 集 。 
l. 证 明 下 列 质心 分 解 公式 : 


; 二 X x 


def 
4 w2 = 》 lz—cel*. 证 明 下 列 恒等式 : 


2 
z€ Z 
«Z)-9*Izl*—IZIx Ic I"? 
zEZ 
def 
3. 4 ACX, Y)=v(XUY)—v(X)—v(Y), 证明 
acx.y) = LXUYL qoo = e» |? 


|X|+ |Y 


(A, 8) 


CA. 4) 
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4. 对 任意 一 个 点 zE R ， 我 们 扩展 其 非 正 规 化 方差 的 概念 ， 如 下 所 示 : 


def 
wZ,x)- X) lz—zl* 
z€ Z 


€ 
注意 ， 这 个 定义 对 于 特殊 情况 x 二 c(Z)， 产 生 的 方差 为 : v(Z)=v(Z, cO). 
(a) 首 先 ， WEH: 
aZ = wWZ)+ |Z] [20 x] * CA. 5) 
(b) 然 后 ， 利 用 式 (A.5)， 证 明 : 
v(Z) Ss SNS oe < 2v(Z) 


5. f CC R^ 的 质心 定义 为 arg minec >) | zx 一 x 上。 为 了 简单 但 不 失 一 般 性 ， 
zEC 


我 们 在 余下 内 容 中 假设 所 有 的 质心 都 是 唯一 计算 的 。 一 般 而 言 ， 这 个 假设 是 不 成 立 的 。 
例如 ， 考 虑 等 边 三 角形 的 三 个 顶点 。 其 质心 是 不 唯一 的 。 注 意 ， 我 们 可 以 将 这 些 点 按 
照 字典 序 进行 排序 ， 或 者 给 这 些 点 添加 一 些 随 机 噪声 ， 这 样 定义 出 来 的 argmin 的 解 是 
唯一 的 。 

对 于 Lloyd k 均值 启发 式 方法 ,将 其 艇 原型 中 的 质心 (centroid) 替 换 为 中 心 (me- 
doid)， 并 利用 相同 的 均值 目标 函数 实现 最 小 化 ， 也 就 是 说 ， 所 有 簇 的 簇 点 与 原型 平 
方 距离 之 和 。 

(a) 证 明 : 随机 选择 个 原型 进行 初始 化 的 k 中 心 点 算法 ， 能 够 单调 地 最 小 化 目标 
函数 。 

(b) 收 敛 前 的 最 大 迭代 次 数 的 渐 近 上 界 是 关于 数据 规模 n 以 及 簇 数 量 的 函数 。 

《e) 证 明 k 中 心 点 目标 函数 的 最 优 值 是 k 均 值 目标 函数 最 优 值 的 两 倍 。 

答案 4( 质 心 、 方 差 以 及 上 中 心 点 聚 类 ) 


1. 我 们 有 : 
$3 Wel? = X lezl? +A el? (A. 6) 
z€ XUY zEX z€Y 
因此 
cCX UY)= l 


X U Y We 


(利用 xnY-9»- TIT (Det Dy) 
x ze 





和 wy y) 42H Si [X] " LE -e 
CHH cC) 定义 可 以 得 到 ) TT 
2. 我 们 有 : 


w(Z)= »,lz—c2* 


zEZ 


(从 式 (A. 3) 的 第 2 852-8 80 — DS) | ell? 2») Z0 + DS) WI cCA I? 
z€ Z 


zZ zEZ 
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(将 z 独立 项 提出 )== Y zl? —2(912)* 2 ZI ln ec2 I? 


xzEZ z€ Z 
(根据 cCO 的 定义 )== M zl? —21Z1GXQD + ZD HL ZI |Z D? 
z€ Z 
(从 式 (A. 3) 的 第 18852 4830 — D lel? —21 ZI ke2 lI? HE Z| I eC2 DU? 
zez 
=D lll? Z1 eyri? 
zEZ 
3. 对 于 问题 2， 我 们 有 : 
vX)= >) zl? X] lew I? (A. 7) 
ze X 
v= lel =Y I eat? (A. 8) 
> zEY 
wXUY= >) lzl*-cIXUYI le UY II? (A. 9) 
zE XUY 


根据 ACX，Y) 的 定义 ， 我 们 得 到 
ACX,Y) =v X U Y) — vO — wY) 


RERA D ~ RAD = 2) ell? -| XUYI lIl(XUY I? + 


ze XUY 
—M lel? XI eo ll? — 5; lel? Y I eco |? 
ze X zeY 


GG. 60 =| X| eW |^ -H Y | leo ll? —L XU Y IH lex UY Il? Ge 
再 根据 式 (A. 308928 1 部 分 ， BA || cCXUYO l|? 2eOXU YO XUY), 我 们 可 以 将 
问题 1 的 结果 重 写 为 ， 
(| X [H Y DeX UY) =| X | (X) +| Y | ey) (A. 10) 
进而 可 以 得 到 : 
IXUY| et UY) |]? ««dXI- Da UY) © cf X UY) 
(根据 式 (A. 100 可 得 ) =X UY) 。(| 和 |c(CX) +l Y | cCY)) 


已 2E NL 1 
(还 是 根据 式 (A. 100 可 得 ) =TXTHYI vane X | cCX) +| Y | eCY)) 
© (| X | ceCX) +1 ¥ | eCY» 
2 k 2 
“SHYT x xi yr «00 1*9 TATT x yil«»l 
2| X IY I : 
+ tary o D (A. 11) 
现在 我 们 将 式 (A. 11) 带 入 等 式 ( 支 ) 的 右 端 第 三 项 ， 可 得 : 
" - VEM? (ES 2 
AQGY) = Go 一 (| XI aryr) eR | 
BEEN EI. 2 
t (1Y I- ox)! I 


214 第 二 部 分 面向 数据 科学 的 高 性 能 计算 


—~ 21 XII (xy . ey 


MA XI CI CX) I? + I eO |]? — 2cCX) * cCY 


E: 


or a | X || ¥ m 2 
(根据 式 (A. 3) 可 得 ) 一 =F X OY] | c(X) —cCY) || 


4. WRA. 5) 的 结构 和 式 (A. 4) 的 非常 相似 。 因 此 ， 它 也 适用 于 问题 2 中 给 出 的 


WEAR : 
v2) =>) || z—(Z) |? 


zEZ 


(对 于 所 有 的 x) =>) ‖ (2-2) GOD — 2) ||? 


EZ 


( 式 (A. 3)) = |z—2z|*—2»1G—2*(XO0 —2-4-»,l«2-—2l* 
EZ zEZ 


(根据 VO 的 定义 ) = v(Z,x) —2( X z — |Z|z)* (CZ) — 2) 4+ |Z] || CZ z |l? 


zEZ 


«(GOD — 3) + |Z| Il (2) — x ||? 


(根据 (。) 的 定义 ) =v(Z,x4) —2|Z|(c(Z) — x) 
24+ |Z| lec — x ||? 


(根据 式 (A. 3) 可 得 ) =v(Z,zx) 一 2|Z| || (CZ) — x || 
=v(Z,2) —|Z| || (CZ) —2z ||? 


因此 ， 我 们 可 以 得 出 : 对 于 所 有 的 cE R^. WZ, x) 二 v(2Z) 十 |Z| || c(2) 一 
《by 关于 下 界 min,e zv(Z. DEvZ), 我 们 考虑 松弛 问题 min,e g?^v(CZ, Br 其 中 


我 们 扩大 了 可 容许 区 间 ， 即 从 ZC R^ 扩大 到 整个 的 民 < 空间 。 因 此 Z 中 的 最 小 值 zx 必 
SER? 中 。 由 此 得 到 minieze(Z, x)Zmin,ceg^v(Z. x), J4fESETT3E TEE miner’ 


uCZ，z)。 因 为 函数 v(Z，z) 在 zxE R^ M RIPE RM, REPRO: 
Vi Sd FD) eel? = Fhe ll? + Halten 


x | *, 


gr Jet bell? ae z) 
= ia a = |Z|z;— 9s; = 0 
z€Z EZ. 


B V j<dz; — 777 Deze; 意味 着 至 少 满足 z+ =c(Z). 我 们 可 以 得 出 结论 : min, e g^ 


v(Z, x)—«(Z, c(Z) —w2), 
XT ES min,ezv(Z，Zzx) 志 2v(Z)， 我 们 可 以 注意 到 》)v(Z,x) 中 的 每 一 项 都 大 
z€ Z 


于 最 小 值 。 因 此 可 以 得 到 : 
ED min v(Z,x)« MwZuo 
rez TEZ rEZ 


A 1 
CZs x Zr ) 一 
nme DS Tz ge x 
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(根据 式 (A. 5)) 一 Tze + [Z| lez) — 15 


EZ 


= «2H | (Z) — x |? 
Z EZ 


(根据 vCZ) 的 定义 )== wv(2Z) 十 v(2Z) = 2w(Z) 
下 面 是 一 个 非常 简洁 地 证 明 上 /下 界 的 方法 ，VzER4，z(DD 一 wx(Z，z) 一 |2| || (D—z||*; 
因为 最 后 一 项 是 非 负 的 ， 所 以 vC SUL. x). UES v xminezv(Z, z), EF 
FAEK Hoti, e=), 我 们 有 eZ. xr) =v(Z)<20(Z); 这 个 界 也 适用 于 
min,egzv(Z, x). 


5. k HHE H hp eR BE TA i CEC( | C | ==&) 平 方 距离 之 和 最 小 化 : 
PS 2:2) | xz — CC ||? (A. 12) 


CeC«ec 


其 中 对 于 所 有 的 CEC, (ORR C 的 一 个 原型 。 如 果 我 们 选择 o(C) — 600). AU 
到 普通 上 均值 : 


F’'(C) = J vO) 
cec 


当 考 虑 上 中心 点 时 ， 我们 有 : 


F’(C) = » minv(C, x) 
Ce "ec 


(a) 从 个 原型 的 给 定 配 置 开始 ，Lloyd 算法 的 两 个 阶段 (最 近 中 心 的 分 配 以 及 中 
心 的 更 新 ) 可 以 减少 目标 函数 。 因 此 ， 收 敛 是 单调 的 。 
(b) 最 大 和 迭代 次 数 是 有 界 的 ， 因 为 上 均值 目标 函数 是 非 负 的 ( 正 数 或 0) 。 由 于 我 们 


不 重复 相同 的 k 中 心 点 配置 ， 因此 至 多 有 上 


ol |? [ko of». 其 中 & 是 一 个 指定 的 整数 常数 。 或 者 ， 我 们 可 以 给 出 第 二 个 界 的 


Stirling 数 ， 表 示 将 个 整数 分 为 & 个 子 集 的 所 有 划分 的 数量 。 

Cc) FAC’ 表示 普通 上 均值 目标 函数 的 最 优 值 (函数 FO .— FH 表示 k 中 心 点 目标 函数 
的 最 优 值 (函数 Fo. RIITAA F (C <2 F'(C’) CLA 4b), WAC’ 的 最 优 性 可 以 
SHE CSF C). Alt PCC )<2F'(C’). 





种 选择 ， 则 最 大 和 迭代 次 数 的 界限 为 





附录 B 
SLURM: 集群 上 的 资源 管理 器 和 任务 调度 器 


MPI 程序 在 运行 时 需要 用 到 hostfile 配置 文件 ， 然 而 使 用 mpirun- host- 
file config 命令 手动 编写 hostfile 文件 是 非常 烦琐 和 乏味 的 ， 尤 其 是 对 拥有 众 
多 机 器 的 大 集群 。 幸 运 的 是 ， 我 们 可 以 使 用 任务 调度 器 来 分 配 任务 并 规划 程序 的 执行 。 
SLURM® 是 Simple Linux Utility for Resource Management 的 缩写 ， 它 是 一 个 为 用 户 
管理 和 共享 资源 的 应 用 程序 。SLURM 为 那些 将 在 集群 上 执行 的 任务 进行 调度 。 暂 停 
的 作业 (pending job) 是 一 个 任务 等 待 队列 ， 一 但 有 可 用 的 资源 ， 队 列 中 的 任务 就 会 被 
执行 。SLURM 会 管理 输入 /输出 (IO) 、 信 号 量 等 。 

用 户 通过 shell 命令 来 提交 任务 ， 这 些 任 务 根据 FIFO( 先 进 先 出 ) 模 型 来 进行 调度 。 
另 一 种 向 SLURM 提交 任务 的 方式 是 通过 脚本 文件 批量 地 提交 任务 。 

从 用 户 的 角度 来 看 ， 有 四 个 命令 非常 重要 ， 这 些 命令 都 以 “s”( 代 表 “S”LURM) 开 
它们 分 别 是 

e sinfo: 显示 系统 的 一 般 信息 。 

。 srun: 提交 或 初始 化 一 个 任务 。 

。 scancel: 发 出 一 个 信号 或 取消 一 个 任务 。 

* squeue: 显示 系统 中 任务 的 信息 ，R 表示 正在 运行 ，PD 表示 阻塞 。 

e scontrol: 管理 员工 具 ， 设 置 或 修改 配置 信息 。 

如 果 想 获取 更 多 信息 ， 我 们 推荐 SLURM 在 线 教程 9 。 

一 个 常见 的 情景 是 将 众多 机 器 通过 组 织 和 配置 划分 成 多 个 集群 。 例 如 ， 作 者 每 年 
向 280 个 学 生 讲授 这 本 书 的 内 容 ， 同 时 使 用 了 169 台 机 器 。 这 些 机 器 被 划分 成 了 4 个 
集群 ， 其 中 3 个 集群 每 个 拥有 50 台 机 器 ， 另 外 一 个 集群 拥有 19 台 机 器 。 一 个 学 生 登 
陆 一 台 机 器 后 ， 可 以 使 用 sinfo 命令 来 显示 这 台 机 器 所 属 集群 的 信息 : 


x 


- 


[malte -]$ sinfo 
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST 
Test* up 15:00 19 idle 


allemagne,angleterre,autriche,belgique,espagne, 


© 可 以 通过 网 址 https: //computing. llnl. gov/linux/slurm/#k RC, 


© http; //slurm. schedmd. com/tutorials. html, 
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finlande, france,groenland, 
hollande,hongrie,irlande,islande, lituanie,malte,monaco 
,pologne, portugal, roumanie, suede 


我 们 可 以 使 用 5 个 节点 (主机 )， 每 个 节点 最 多 两 个 进程 来 运行 nostname 程序 
(向 控制 台 输 出 正在 使 用 的 机 器 的 名 字 )， 如 下 所 示 : 


[malte ~]$ srun -n 5 --ntasks-per-node-2 hostname 
angleterre.polytechnique.fr 

autriche.polytechnique. fr 

allemagne.polytechnique.fr 

allemagne.polytechnique.fr 

angleterre.polytechnique.fr s 


我 们 也 可 以 使 用 SLURM 来 执行 一 个 shell 命令 shell. sh， 该 脚本 能 够 运行 一 个 
MPI 程序 myprog， 如 下 所 示 : 


[malte ~]$ cat test.sh 

#!/bin/bash 

LD LIBRARY PATH-$LD LIBRARY PATH:/usr/local/openmpi-1.8.3/1lib/: 
/usr/local/boost-1.56.0/1lib/ 
/usr/local/openmpi-1.8.3/bin/mpirun -np 4 ./myprog 


[malte ~]$ srun -p Test -n 25 --label test.sh 
09: I am process 1 of 4. 


09: I am process 0 of 4. 


01: 


I am process 0 of 4. 
01: I am process 2 of 4. 
05: I am process 2 of 4. 
05: I am process 3 of 4. 


我 们 在 下 面 的 表格 中 总 结 了 主要 的 SLURM 命令 : 








salloc 资源 分 配 

sbatch #2 3E" batch” X fF 

sbeast 向 已 分 配 的 节点 分 发 文件 
scancel 取消 正在 执行 的 “batch” 文 件 
scontrol 控制 SLURM 的 接口 

sdiag 获取 状态 报告 

sinfo 显示 该 机 器 所 属 集群 的 信息 
squeue 显示 任务 队列 

srun 运行 一 个 任务 

sstat 显示 执行 状态 

strigger 管理 和 触发 信号 





sview 图 形 化 查看 集群 状态 
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